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算法 ，C 语 言 实 现 (第 1 一 4 部 分 ) 基础 知识 、 数据 结 构 、 排 序 及 搜索 《 原 书 第 3 版 ) 


对 于 在 数学 分 析 方 面 不 算 熟 练 且 需要 留意 理论 算法 的 普通 程序 员 来 说 ， 术 书 是 一 本 可 读 性 很 

强 的 优秀 读本 ， 他 们 应 该 会 从 中 获 蔓 良 多 
Steve Summit, 《C Programming FAQs》 的 作者 
Sedgewick 有 一 种 真正 的 天 典 、 可 以 用 易于 理解 的 方式 来 解释 概念 。 书 中 采用 了 一 些 易 懂 的 实战 


但 序 、 其 简 幅 仅 有 一 页 去 在 、 这 更 是 锦上添花 。 而 书 中 大 时 采用 的 图 、 程 序 、 表 格 也 会 极 大 帮助 
读者 的 学 习 和 理解 、 这 使 本 书 更 显得 与 众 不 同 
Wiliam A. Ward， 南 亚 拉 巴 马 大 学 


本 书 是 Sedgewick 彻 底 修订 和 重 写 的 C 算 法 系列 的 第 一 本 。 全 书 分 为 四 部 分 ， 共 16 章 。 第 一 部 分 “基础 
知识 ” (第 1~2 章 ) 介绍 基本 算法 分 析 原 理 。 第 二 部 分 “数据 结构 ” (第 3~5 章 ) 讲解 算法 分 析 中 必须 掌握 
的 数据 结构 知识 ， 主 要 包括 基本 数据 结构 、 抽 和 象 数 据 结构 、 弟 归 和 树 。 第 三 部 分 “排序 ” (第 6~11 章 ) 
按 章节 顺序 分 别 讨论 基本 排序 方法 (如 选择 排序 、 插 入 排序 、 冒 泡 排序 、 希 尔 排 序 等 ) 、 快 速 排序 方法 、 归 
并 和 归并 排序 方法 、 优 先 队 列 与 堆 排 序 方法 、 基 数 排序 方法 以 及 特殊 用 途 的 排序 方法 ， 并 比较 了 各 种 排序 
方法 的 性 能 特征 。 第 四 部 分 “搜索 ” (第 12~16 章 ) 在 进一步 讲解 符号 表 、 树 等 抽象 数据 类 型 的 基础 上 ， 重 
点 讨论 散 列 方法 、 基 数 搜索 以 及 外 部 搜索 方法 。 

书 中 提供 了 用 C 语 言 描述 的 完整 算法 源 程序 ， 并 且 配 有 丰富 的 插图 和 练习 3。 作 者 用 简洁 的 实现 将 理论 和 
实践 成 功 地 结合 了 起 来 ， 这 些 实现 均 可 在 真实 应 用 上 测试 ， 使 得 本 书 自问 世 以 来 备 受 程序 员 的 欢迎 。 

本 书 可 作为 高 等 院 校 计算 机 相关 专业 算法 与 数据 结构 课程 的 教材 和 补充 读物 ， 也 可 供 自学 之 用 。 

本 书 作者 的 网 站 http:/www.cs.princeton.edu/~rs/ 为 程序 员 提供 了 本 书 的 源 代码 和 勘误 表 。 





作 。 拥有 斯 坦 福 大 学 博士 学 位 (导师 为 Donald E. 
者 Robert Sedgewick Knuth) ,普林斯顿 大 学 计算 机 科学 系 教授 ， 


简 | Adobe Systems 公 司 董事 ， 曾 是 Xerox PARC 的 研究 人 员 ， 还 曾 就 职 于 美国 国防 部 防御 分 析 研 究 
外 | 所 以 及 INRIA。 除 本 书 外 ， 他 还 与 Philippe Flajolet 合 著 了 《算法 分 析 导 论 》 一 书 。 
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外 法 : C 语 言 实 
第 1~4 部 分 ) 

基础 知识 、 数 据 结构 、 排 序 及 搜索 


Robert Sedgewick 红 七 


省 栖 其 [天 人 六 志 下 种 扩大 





本 书 细腻 讲解 计算 机 算法 的 C 语 言 实现 。 全 书 分 为 四 部 分 ， 共 16 章 。 包 括 基本 算法 分 
析 原 理 ， 基 本 数据 结构 、 抽 象 数据 结构 、 递 归 和 树 等 数据 结构 知识 ， 选 择 排序 、 插 和 人 排序、 
冒 泡 排序 、 希 尔 排序 、 快 速 排序 方法 、 归 并 和 归并 排序 方法 、 优 先 队 列 与 堆 排序 方法 ， 基 
数 排序 方法 以 及 特殊 用 途 的 排序 方法 ， 并 比较 了 各 种 排序 方法 的 性 能 特征 ， 在 进一步 讲解 
符号 表 、 树 等 抽象 数据 类 型 的 基础 上 ， 重 点 讨论 散 列 方法 、 基 数 搜索 以 及 外 部 搜索 方法 。 
书 中 提供 了 用 C 语 言 描述 的 完整 算法 源 程序 ， 并 且 配 有 丰富 的 插图 和 练习 ， 还 包含 大 量 简 洗 
的 实现 将 理论 和 实践 成 功 地 相 结合 ， 这 些 实现 均 可 用 在 真实 应 用 上 。 

本 书 内 容 在 富 ， 有 共有 很 强 的 实用 价值 ， 适 合作 为 高 等 院 校 计算 机 及 相关 专业 本 科 生 算 
法 课程 的 教材 ， 也 是 广大 研究 人 员 的 极 佳 参 考 读物 。 


Simplified Chinese edition copyright © 2010 by Pearson Education Asia Limited and 
China Machine Press. 

Original English language title: Algorithms in C, Parts 1~4: Fundamentals, Data 
Structures, Sorting, Searching, Third Edition (ISBN 0-201-31452-5) by Robert Sedgewick, 
Copyright © 1998. 

All rights reserved. 

Published by arrangement with the original publisher, Pearson Education, Inc., publishing 
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文艺 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规 范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 礁 断 性 的 优势 ， 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 摹 出 、 独 领 风 驿 。 在 商业 化 的 进程 中 ， 美 国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 壁 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规 范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
益 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ， 而 专业 教材 的 建设 在 教育 战略 
上 显得 举足轻重 。 在 我 国信 息 技 术 发 展 时 间 较 短 的 现状 下 ， 美 国 等 发 达 国 家 在 其 计算 机 科学 
发 展 的 儿 十 年 间 积 淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 真正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工业 出 版 社 华章 分 社 较 早 意识 到 “出 版 要 为 教育 服务 "。 自 1998 年 开始 ， 华 章 分 社 就 
将 工作 重点 放 在 了 各 选 、 移 译 国 外 优秀 教材 上。 经 过 多 年 的 不 贿 努 力 ， 我 们 与 Pearson， 
McGraw-Hill，Elsevier，MIT，John Wiley & Sons，Cengage 等 世界 著名 出 版 公司 建立 了 良好 
的 合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 矣 选 出 Andrew S. Tanenbaum，Bjarne Stroustrup ， 
Brain W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft, Jeffrey D. 
Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry 
L. Peterson 等 大 师 名 家 的 一 批 经 典 作 品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 研 
究 及 了 珍藏。 大理石 纹理 的 封面 ， 也 正体 现 了 这 套 丛 书 的 品位 和 格调 。 

“计算 机 科学 从 书 ” 的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 襄 助 ， 国 内 的 专家 不 仅 提 供 了 中 
肯 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ， 而 原 书 的 作者 也 相当 关注 其 作品 在 
中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 思 今 , “计算 机 科学 从 书 ” 已 经 出 版 了 近 两 百 
个 品种 ， 这 些 书 籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采 用 为 正式 教材 和 参考 书籍 。 
其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完 善 和 教材 改革 的 逐渐 深 
化 ， 教 育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽善尽美 ， 
而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 华 章 分 社 欢迎 老师 和 读者 对 我 们 的 工 
作 提 出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 : www.hzbook.com 

电子 邮件 : hzjsj@hzbook.com 

联系 电话 : (010) 88379604 

联系 地 址 ， 北 京 市 西城 区 百 万 庄 南 街 1 号 
邮政 编码 : 100037 








译 者 序 


本 书 是 算法 方面 的 优秀 著作 之 一 。 它 系统 地 阐述 了 算法 的 特征 以 及 它们 可 能 应 用 的 场合 ， 
讨论 了 算法 分 析 与 理论 计算 机 科学 的 关系 ， 并 通过 实验 数据 和 分 析 结 果 表 明 选 择 何 种 算法 来 
解决 实际 问题 。 书 中 包含 了 基本 概念 、 数 据 结 构 、 排 序 算法 和 搜索 算法 。 

这 本 书 不 仅 适 合 于 程序 员 和 计算 机 科学 专业 的 学 生 ， 而 且 也 适合 于 那些 想 利用 计算 机 并 
想 使 它 运 行 更 快 或 是 想 要 解决 更 大 问题 的 人 们 。 书 中 的 算法 代表 了 过 去 50 年 来 所 研究 的 知识 
主体 。 对 于 大 量 应 用 问题 ， 这 些 知识 主体 已 经 成 为 有 效 使 用 计算 机 不 可 缺少 的 部 分 。 从 物理 
学 中 的 N- 体 模拟 问题 到 分 子 生物 学 中 的 序列 分 析 问 题 ， 在 此 所 描述 的 基本 方法 在 科学 研究 中 
已 日 显 重 要 。 另 外 ， 从 数据 库 系统 到 Internet 搜 索引 擎 ， 这 些 方 法 已 经 成 为 现代 软件 系统 的 重 
要 组 成 部 分 。 随 着 计算 机 应 用 的 覆盖 面 越 来 越 广 ， 基 本 算法 的 影响 也 日 益 显著 。 

本 书 主要 内 容 及 特点 如 下 

“扩展 介绍 了 数组 、 链 表 、 串 、 树 和 其 他 基本 数据 结构 。 

。 为 排序 、 选 择 、 优 先 队 列 ADT 实 现 和 符号 表 ADT (查找 ) 实现 提供 了 多 达 100 多 个 算法 。 

“介绍 了 多 路 基数 排序 、 随 机 BST、 伸 展 树 、 跳 跃 表 、 多 路 trie 等 新 的 数据 结构 。 

。 为 算法 提供 了 很 多 可 视 化 的 信息 ， 还 有 大 量 实验 研究 和 基本 分 析 研 究 ， 从 而 为 选择 算法 

解决 实际 问题 提供 了 依据 。 

。 增 加 了 1000 多 个 新 练习 ， 从 而 有 助 于 深入 了 解 算法 的 特征 。 

。 本 书 以 大 量 图 例 说 明 算法 的 工作 过 程 ， 使 得 算法 更 加 易于 理解 和 掌握 。 

“适合 作为 高 等 院 校 算法 设计 课程 的 教材 ， 同 时 可 作为 从 事 软 件 开发 和 工程 设计 的 专业 人 

， 员 的 参考 书 。 

由 于 时 间 较 紧 及 译 者 水 平 有 限 ， 译 文 难免 有 错误 及 不 妥 之 处 ， 肪 请 读者 批评 指正 。 


译 者 
于 西安 电子 科技 大 学 计算 机 学 院 
2009 年 4 月 


月 j 二 和 


写本 书 的 目的 是 为 了 对 当今 使 用 最 为 重要 的 计算 机 算法 做 一 综述 ， 并 为 需要 学 习 这 方面 
知识 的 越 来 越 多 的 读者 提供 基础 的 技术 。 本 书 可 以 在 学 生 掌 握 了 所 需 的 基本 程序 设计 技巧 ， 
熟悉 了 计算 机 系统 ， 但 还 未 学 过 计算 机 科学 或 计算 机 应 用 高 级 领域 的 专业 课程 的 时 候 ， 用 作 
计算 机 科学 的 第 二 、 第 三 或 第 四 门 课程 的 教科 书 。 此 外 ， 由 于 本 书包 含 了 大 量 有 用 算法 的 实 
现 ， 以 及 关于 这 些 算法 的 性 能 特征 的 详细 信息 ， 因 而 它 还 可 用 于 自学 ， 或 者 作为 从 事 计 算 机 
系统 或 应 用 程序 开发 人 员 的 参考 手册 。 宽 广 的 视角 使 得 本 书 成 为 计算 机 算法 领域 最 合适 的 人 
门 读 物 。 

对 于 新 的 一 版 ， 我 不 仅 完全 重 写 了 它 的 内 容 ， 而 且 还 添加 了 一 千 多 个 练习 、 一 百 多 幅 图 
表 和 数 十 个 新 程序 。 我 还 给 所 有 图 表 和 程序 添加 了 详细 的 注释 。 新 的 素材 不 仅 涵盖 了 新 的 主 
题 ， 而 且 还 包含 对 经 典 算法 的 更 完整 解释 。 抽 象 数据 类 型 是 这 本 书 的 重点 ， 这 使 得 程序 应 用 
更 广泛 ， 并 且 与 现代 面向 对 象 的 程序 设计 环境 更 紧密 。 读 过 本 书 有 旧版 本 的 人 一 定 会 发 现 ， 新 
版 本 包含 了 更 为 丰富 的 新 信息 ， 所 有 读者 将 发 现 大 量 的 教学 资料 为 掌握 基本 概念 提供 了 有 效 
途径 。 

由 于 新 的 素材 数量 过 多 ， 所 以 我 们 把 新 版 本 分 为 两 卷 〈 每 一 卷 的 容量 都 大 约 为 旧版 本 的 
大 小 )， 本 书 是 第 一 卷 。 这 卷 书 中 包含 了 基本 概念 、 数 据 结 构 、 排 序 算法 和 搜索 算法 ， 第 二 卷 
涵盖 的 高 级 算法 及 应 用 是 以 第 一 卷 的 基本 抽象 概念 和 方法 为 基础 的 。 这 个 新 版 中 的 关于 基本 
原理 和 数据 结构 的 所 有 素材 几乎 都 是 新 的 。 

这 本 书 不 仅 适 合 于 程序 员 和 计算 机 科学 专业 的 学 生 ， 而 且 也 适合 于 想 利用 计算 机 并 想 使 
它 和 运行 更 快 或 是 想 要 解决 更 大 问题 的 人 们 。 这 本 书 中 的 算法 代表 了 过 去 50 年 来 所 研究 的 知识 
主体 。 对 于 大 量 应 用 问题 ， 这 些 知 识 主体 已 经 成 为 有 效 使 用 计算 机 的 不 可 缺少 的 部 分 。 从 物 
理学 中 的 V- 体 模拟 问题 到 分 子 生 物 学 中 的 序列 分 析 问 题 ， 在 此 所 描述 的 基本 方法 在 科学 研究 
中 已 日 显 重要 。 另 外 ， 对 于 从 数据 库 系统 到 Internet 搜 索引 擎 ， 这 些 方法 已 经 成 为 现代 软件 系 
统 的 重要 组 成 部 分 。 随 着 计算 机 应 用 的 覆盖 面 越 来 越 广 ， 基 本 算法 的 影响 也 日 益 显 著 。 本 书 
的 目标 是 要 提供 一 种 资源 ， 使 广大 学 生 以 及 专业 人 士 可 以 了 解 并 有 效 利用 这 些 算法 解决 计算 
机 应 用 中 出 现 的 问题 。 


本 书 范围 


本 书 共 有 16 章 ， 分 为 四 大 部 分 : 基础 、 数 据 结构 、 排 序 和 搜索 。 这 里 的 说 明 是 想 使 读者 
对 尽 可 能 多 的 基本 算法 有 一 个 了 解 。 本 书 描述 的 从 二 项 队列 到 帕 氏 线索 这 个 范围 内 的 独创 性 
的 方法 ， 都 与 计算 机 科学 核心 的 基本 范 型 相关 。 第 二 卷 由 另外 四 部 分 组 成 ， 涵 盖 了 字符 串 算 
法 、 几 何 算法 、 图 算 靶 和 高 级 主题 。 写 这 些 书 的 主要 意图 是 把 各 个 领域 中 应 用 的 基本 方法 集 
合 在 一 起 ， 从 而 为 用 计算 机 求解 问题 提供 最 好 的 方法 。 ， 

如 果 你 已 经 学 过 计算 机 科学 的 一 两 门 课程 ， 如 C、Java 或 C++ 这 样 的 高 级 程序 设计 语言 
程 ， 或 者 可 能 还 有 讲授 程序 设计 系统 的 基本 概念 的 课程 ， 或 者 具有 同等 的 程序 设计 经 验 ， 那 
么 一 定 会 非常 欣赏 本 书 提供 的 资料 。 因 此 ， 本 书 是 为 那些 熟悉 现代 程序 设计 语言 和 现代 计算 
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机 系统 的 基本 特性 的 人 而 编写 的 。 书 中 给 出 的 参考 文献 会 有 助 于 弥补 背景 知识 的 不 足 。 
由 于 用 来 支持 分 析 结 果 的 大 部 分 数学 知识 都 包含 在 本 书 中 (或 者 做 出 标记 不 在 本 书 之 中 )， 
因而 尽管 具有 完备 的 数学 知识 肯定 会 有 帮助 ， 但 专门 对 数学 知识 的 准备 不 是 必要 的 。 


教学 中 的 用 法 


在 教学 中 如 何 使 用 本 书 内 容 具 有 很 大 的 灵活 性 ， 这 取决 于 教师 的 偏好 以 及 学 生 所 做 的 准 
备 。 这 里 所 描述 的 算法 多 年 以 来 已 经 得 到 广泛 应 用 ， 而 且 无 论 对 于 实际 的 程序 员 还 是 计算 机 
科学 专业 的 学 生 ， 这 些 算法 都 代表 了 基本 的 知识 主体 。 书 中 涵盖 了 足够 的 基本 内 容 可 用 作 数 
据 结 构 课程 的 学 习 ， 也 有 足够 详细 的 高 级 主题 用 于 算法 课程 的 学 习 。 有 些 教师 可 能 希望 强调 
与 实现 和 实践 有 关 的 内 容 ， 而 另外 一 些 教师 则 可 能 把 重点 放 在 分 析 和 理论 概念 上 。 

教学 中 使 用 的 电子 文档 、 程 序 设 计 示例 作业 、 为 学 生 提 供 的 交互 式 练习 以 及 其 他 课程 有 
关 的 资料 都 可 在 本 书 的 主页 上 找到 。 

关于 数据 结构 和 算法 的 基础 课程 可 以 把 重点 放 在 第 二 部 分 的 基本 数据 结构 及 其 他 们 在 第 
三 、 四 部 分 实现 中 的 应 用 。 关 于 算法 设计 与 分 析 的 课程 可 以 把 重点 放 在 第 一 部 分 和 第 五 部 分 
中 的 基础 内 容 ， 然 后 在 第 三 部 分 和 第 四 部 分 研究 算法 达到 良好 渐 近 性 能 的 方法 。 关 于 软件 工 
程 的 课程 可 能 会 省 略 数学 和 高 级 算法 的 内 容 ， 并 把 重点 放 在 如 何 把 给 出 的 算法 实现 集成 到 大 
的 程序 或 系统 中 。 关 于 算法 的 课程 则 可 能 进行 综述 并 引入 所 有 这 些 领域 的 概念 。 

本 书 的 早期 版 本 在 近年 来 为 世界 各 地 的 学 院 或 大 学 用 作 计 算 机 科学 的 第 二 或 第 三 门 课程 
的 教材 或 其 他 课程 的 补充 阅读 材料 。 在 普林斯顿 大 学 ,我 们 的 经 验 表 明 这 本 书 内 容 覆 盖 面 广 ， 
为 主 修 课 程 提供 计算 机 科学 的 导 引 ， 并 可 在 后 续 的 算法 分 析 、 系 统 程序 设计 以 及 理论 计算 机 
科学 的 课程 中 对 它 进行 扩充 ， 同 时 为 其 他 学 科 的 学 生 提供 一 整套 的 技术 ， 使 他 们 能 很 快 学 以 
致 用 。 

这 一 版 中 的 大 多 数 练习 是 新 添加 的 ， 分 为 儿 种 类 型 。 一 类 练习 的 目的 是 为 了 测试 对 课文 
中 内 容 的 理解 ， 要 求 读 者 能 够 完成 基 个 例子 或 应 用 课文 中 描述 的 概念 。 另 一 类 练习 则 涉及 实 
现 算 法 和 把 算法 整理 到 一 起 ， 或 者 进行 实验 研究 从 而 对 各 种 算法 进行 比较 以 及 了 解 其 性 质 。 
还 有 一 类 练习 则 是 一 些 重要 信息 的 知识 库 ， 其 详细 程度 本 身 不 适合 放 在 正文 中 。 阅 读 并 思考 
这 些 练习 ， 会 使 每 个 读者 受益 匪 浅 。 


算法 的 实用 性 


车 希望 更 有 效 地 使 用 计算 机 ， 可 以 把 这 本 书 用 作 参 考 书 ， 或 用 于 自学 。 具 有 程序 设计 经 
验 的 人 可 以 从 本 书 中 找到 有 关 某 个 特殊 主题 的 信息 。 对 于 更 大 范围 的 读者 ， 尽 管 某 些 情况 下 ， 
某 一 章 中 的 算法 使 用 了 前 一 章 中 的 方法 ， 但 你 仍 可 以 独立 于 本 书 的 其 他 章节 阅读 本 书 的 某 个 
章节 。 

本 书 的 定位 是 研究 有 可 能 实用 的 算法 。 本 书 提供 了 算法 的 详尽 信息 ， 读 者 可 以 放心 地 实 
现 和 调试 算法 ， 并 使 算法 能 够 用 于 求解 某 个 问题 ， 或 者 为 某 个 应 用 提供 相关 功能 。 书 中 包括 
了 所 讨论 方法 的 完整 实现 ， 并 在 一 么 列 一 致 的 示例 程序 中 给 出 了 这 些 操作 的 描述 。 由 于 我 们 
使 用 了 实际 代码 ， 而 不 是 伪 代 码 ， 因 而 在 实际 中 可 以 很 快 地 使 用 这 些 程序 。 通 过 访问 本 书 的 
主页 可 以 得 到 程序 的 代码 清单 。 

实际 上 ， 书 中 算法 的 实际 应 用 会 产生 数 百 幅 图 表 。 正 是 这 些 图 表 提供 的 立体 视觉 直观 地 
发 现 了 许多 算法 。 1 
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本 书 详细 讨论 了 算法 的 特征 以 及 它们 可 能 应 用 的 场合 。 尽 管 并 不 强调 ， 但 是 书 中 论述 了 算 
法 分 析 与 理论 计算 机 科学 的 联系 。 在 适当 的 时 候 ， 书 中 都 给 出 了 经 验 性 的 数据 和 分 析 结 果 用 
以 说 明 为 什么 选择 使 用 某 些 算法 。 如 果 有 趣 ， 书 中 还 会 描述 所 讨论 的 实际 算法 与 纯 理论 结果 
之 间 的 关系 。 关 于 算法 性 能 特征 和 实现 的 某 种 信息 的 综合 、 概 括 和 讨论 都 会 贯穿 本 书 的 始终 。 


编程 语言 


书 中 所 有 实现 所 用 的 程序 设计 语言 均 为 C 语 言 。 任 何 特定 语言 都 有 优 缺 点 。 我 们 使 用 C 语 
言 是 因为 它 是 一 种 广泛 使 用 的 语言 ， 并 且 能 够 为 本 书 的 实现 提供 所 需 的 特征 。 由 于 没有 多 少 
结构 是 C 语 言 所 特有 的 ， 因 而 用 C 语 言 编 写 的 程序 可 以 很 容易 地 变 成 用 其 他 现代 编程 语言 书写 
的 程序 。 在 适当 的 时 候 ， 我 们 会 使 用 标准 C 语 言 中 的 术语 ， 但 本 书 并 不 打算 成 为 C 语 言 程序 设 
计 的 参考 手册 。 

在 这 一 版 中 有 很 多 新 的 程序 ， 旧 版 本 的 很 多 程序 也 已 更 新 ， 主 要 目的 是 使 它们 在 用 作 抽 
象 数 据 类 型 时 更 具有 易 读 性 。 对 程序 所 做 的 广泛 的 实验 性 比较 研究 贯穿 在 本 书 中 。 

本 书 以 前 的 版 本 是 用 Pascal、C++ 和 Modula-3 来 呈现 基本 程序 的 。 在 本 书 的 主页 上 可 得 到 
这 些 代 码 。 新 程序 的 代码 和 用 新 语言 ， 如 Java 书 写 的 代码 将 在 适当 的 时 候 添加 进来 。 

本 书 的 上 且 标 是 以 尽 可 能 简单 、 直 接 的 方式 呈现 算法 。 在 尽 可 能 的 情况 下 利用 一 致 的 风格 ， 
使 得 相似 的 程序 看 起 来 相似 。 对 于 书 中 的 许多 算法 ， 无 论 使 用 哪 种 语言 ， 算 法 都 具有 相似 性 。 
例如 ，Quicksort 是 一 种 快速 排序 算法 ( 取 了 一 个 著名 的 例子 )， 无 论 它 是 用 Algo160、Basic、 
Fortran、Smalltalk、Ada、Pascal、C、PostScript、Java 表 示 的 ， 还 是 其 他 无 数 程序 设计 语言 
和 环境 表示 的 ， 都 证 明 它 是 一 种 有 效 的 排序 方法 。 

我 们 力争 编写 精致 、 简 明和 可 移植 的 代码 实现 ， 但 同时 关注 实现 的 效率 ， 因 而 我 们 在 开 
发 的 各 个 阶段 就 试图 了 解 代码 的 性 能 特征 。 第 一 章 包含 这 种 方法 的 一 个 详细 例子 ， 用 以 说 明 
如 何 用 这 种 方法 开发 一 个 算法 的 高 效 C 语 言 实现 ， 并 简略 介绍 了 本 书 其 余部 分 的 内 容 。 
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有 关 练 习 的 注释 


给 练习 分 类 是 一 件 充满 风险 的 事情 ， 因 为 本 书 的 读者 具备 的 知识 背景 和 经 验 参 差 不 齐 。 
虽然 如 此 ， 指 导 仍 然 是 适宜 的 ， 所 以 许多 练习 都 加 了 一 个 记号 ， 以 帮助 你 判断 如 何 动手 解决 
它们 。 

测试 你 对 内 容 理解 程度 的 练习 标 以 空心 三 角 符号 ， 如 下 所 示 : 
>7.1 按 前 面 例子 的 风格 ， 给 出 快速 排序 算法 应 用 于 文件 内 容 为 BASYQUESTION 每 一 步 的 排 
序 结果 。 
通常 ， 这 样 的 练习 是 与 正文 中 的 例子 直接 相关 。 它 们 并 不 特别 难 ， 但 是 做 这 些 练习 可 能 教会 
你 一 个 事实 或 一 个 概念 ， 它 们 可 能 是 你 在 阅读 正文 时 感到 困惑 不 解 的 问题 。 

给 正文 中 添加 新 的 和 需要 思考 信息 的 练习 标 以 空心 圆 符号 ， 如 下 所 示 : 

9 13.23 比较 你 从 练习 13.22 所 得 结果 和 从 下 面 过 程 所 得 结果 : 利用 程序 13.2 和 程序 13.3 对 一 村 
AN 个 节点 的 随机 树 执行 删除 最 大 关键 字 ， 并 重新 播 人 该 关键 字 的 操作 ， 其 中 N = 10，100 和 
1000。 对 于 每 个 Y， 要 求 达 到 尽 次 的 插入 一 删除 对 操作 。 
这 样 的 练习 鼓励 你 考虑 与 书 中 内 容 相 关 的 重要 概念 ， 或 者 回答 出 现在 你 阅读 正文 时 遇 到 的 一 
个 问题 。 即 使 你 没有 时 间 做 这 些 练习 ， 你 也 会 发 现 阅读 这 些 练习 是 非常 有 价值 的 。 

具有 挑战 性 的 练习 标 以 黑色 圆 点 ， 如 下 所 示 ， 

“8.45 ”假设 归并 排序 将 文件 按 随机 方式 进行 划分 ， 而 不 是 恰好 平分 。 使 用 这 样 的 方法 对 包含 V 
个 元 素 的 文件 进行 排序 ， 平 均 需 要 使 用 多 少 次 比较 ? 

这 种 练习 可 能 需要 花费 大 量 时 间 才 能 完成 ， 这 取决 于 你 的 经 验 。 一 般 而 言 ， 最 有 效 的 方法 是 
分 儿 个 时 期 来 解决 它们 。 | 

少数 难度 极 大 的 练习 标 以 两 个 黑色 圆 点 ， 如 下 所 示 :; 

15.28 ”证明 由 个 随机 位 串 所 构建 的 线索 的 高 度 约 为 2lgN。 提 示 ; 考虑 生日 问题 ( 见 性 质 
14.2)。 

这 种 练习 类 似 于 研究 文献 上 陈述 的 问题 ， 但 书 中 的 内 容 可 能 为 你 试图 (可 能 成 功 ) 解决 它们 
做 好 了 准备 。 

对 于 考察 你 的 程序 设计 能 力 和 数学 能 力 的 练习 ， 则 没有 明确 记号 。 这 些 要 求 程序 设计 能 
力 或 数学 分 析 能 力 的 练习 是 一 种 自我 检查 。 我 们 鼓励 所 有 的 读者 都 通过 实现 算法 以 测试 自己 
对 算法 的 理解 程度 。 对 于 程序 员 或 者 程序 设计 课程 的 学 生来 说 ， 这 样 的 练习 很 简单 ， 而 对 于 
那些 近来 很 少 编程 的 人 来 说 ， 则 会 有 一 定 难度 : 

4.45 ” 写 一 个 客户 程序 从 命令 行 的 第 一 个 参数 中 取 一 个 整数 W， 然 后 打印 出 N 个 扑克 牌 局 ， 方 
法 是 把 N 个 项 放 到 一 个 随机 队列 中 〈 见 练习 4.4) ， 然 后 打印 出 从 队列 中 一 次 拒 出 五 张 牌 的 结果 。 
类 似 的 情况 ， 我 们 鼓励 所 有 的 读者 努力 探索 有 关 算 法 性 质 的 分 析 基 础 。 对 于 一 个 科学 工作 者 
或 者 离散 数学 课程 的 学 生来 说 ， 这 样 的 练习 很 简单 ， 而 对 于 那些 近来 很 少 做 数学 分 析 的 人 来 “ 
说 ， 仍 然 会 有 一 定 的 难度 : 

1.12 在 一 棵 由 加 权 快 速 合 并 算法 在 最 坏 情况 下 构造 的 >" 个 节点 的 树 中 ， 试 计算 从 一 个 节点 
到 树 根 节点 的 平均 距离 。 

还 有 更 多 的 练习 需要 你 去 阅读 和 掌握 。 我 希望 这 里 有 足够 的 练习 能 够 激励 你 积极 地 加 深 
对 自己 感 兴趣 主题 的 理解 ， 而 不 仅仅 满足 于 简单 阅读 正文 所 得 到 的 收获 。 
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第 ] 章 引言 


本 书 的 目的 是 研究 各 种 重要 且 有 用 的 算法 (algorithm)， 即 研究 适合 计算 机 实现 的 求解 问 
题 的 方法 。 我 们 将 会 涉及 许多 不 同 领 域 中 的 应 用 ， 但 把 重点 放 在 重要 且 有 趣 的 基本 算法 上 。 
我 们 将 花费 足够 的 时 间 理 解 每 个 算法 的 重要 特征 并 考虑 一 些 细节 问题 。 我 们 的 目标 是 学 习 大 
量 现今 计算 机 所 用 的 最 重要 的 算法 ， 充 分 理解 这 些 算法 以 达到 学 以 致 用 的 目的 。 

理解 书 中 给 出 的 程序 所 使 用 的 策略 是 实现 并 测试 这 些 程序 ， 试 验 这 些 程序 的 各 种 变 体 ， 
讨论 它们 在 小 规模 例子 上 的 操作 ， 并 试图 在 实际 中 可 能 遇 到 的 更 大 规模 的 例子 上 试验 它们 。 
我 们 将 利用 C 程 序 设计 语言 来 描述 算法 ， 因 而 同时 也 就 提供 了 有 用 的 实现 。 我 们 的 程序 风格 一 
致 ， 很 容易 就 能 改写 成 其 他 现代 程序 设计 语言 。 

我 们 还 关注 算法 的 性 能 特征 ， 这 有 助 于 我 们 开发 算法 的 改进 版 本 ， 比 较 求 解 同 一 任务 的 
不 同 算法 ， 并 能 预测 或 保证 求解 更 大 问题 的 性 能 。 理 解 算法 如 何 执行 可 能 需要 试验 或 者 数学 
分 析 或 者 两 者 都 需要 。 我 们 考虑 许多 最 重要 算法 的 详细 信息 ， 在 可 行 时 直接 研制 分 析 结 果 ， 
或 者 在 必要 时 利用 研究 文献 中 的 结果 。 

为 了 说 明 研制 算法 求解 的 一 般 方法 ， 本 章 我 们 考虑 包含 求解 特定 问题 的 大 量 算法 的 一 个 
详细 例子 。 我 们 考虑 的 这 个 问题 不 是 一 个 玩具 问题 ， 它 是 一 个 基本 的 计算 任务 ， 并 且 我 们 研 
制 的 解决 方法 也 可 用 于 大 量 应 用 中 。 我 们 从 一 种 简单 求解 方法 开始 ， 然 后 探索 这 种 解法 的 性 
能 特征 ， 这 可 以 帮助 我 们 理解 如 何 改进 算法 。 在 重复 几 次 这 样 的 过 程 之 后 ， 我 们 就 会 得 到 求 
解 问题 的 一 个 高 效 且 有 用 的 算法 。 这 个 原型 例子 为 通 篇 使 用 这 个 一 般 方法 商定 了 基础 。 

最 后 对 本 书 内 容 作 一 概略 讨论 以 结束 本 章 ， 其 中 包括 简略 描述 书 中 的 各 个 主要 部 分 的 组 
成 ， 以 及 它们 之 间 的 相互 关系 。 


1.1 算法 


当 我 们 写 一 个 计算 机 程序 时 ， 一 般 而 言 我 们 是 在 实现 事先 设计 的 求解 某 个 问题 的 方法 。 
这 个 方法 常常 与 使 用 的 特定 计算 机 无 关 ， 它 很 可 能 同样 适合 于 许多 计算 机 和 计算 机 语言 。 我 
们 必须 学 习 的 是 如 何 解决 问题 的 方法 ， 而 不 是 计算 机 程序 本 身 。 术 语 算法 用 在 计算 机 科学 中 ， 
用 来 描述 适合 于 计算 机 程序 实现 的 求解 问题 的 方法 。 算 法 是 计算 机 科学 的 基础 : 它们 是 许多 
领域 研究 的 核心 。 

大 多 数 算法 关注 的 是 计算 中 涉及 的 数据 的 组 织 方法 。 用 这 种 方法 建立 的 对 象 称 为 数据 结 
构 (data structure) ， 它 们 也 是 计算 机 科学 研究 的 核心 。 这 样 ， 算 法 与 数据 结构 就 结合 在 一 起 
了 。 在 本 书 中 ， 我 们 把 数据 结构 看 作 是 算法 的 副产品 或 最 终 产物 ， 因 而 我 们 必须 研究 这 些 数 
据 结构 以 便 理解 算法 。 简 单 算 法 可 以 导致 非常 复杂 的 数据 结构 ， 反 之 ， 复 杂 算 法 可 以 利用 简 
单 的 数据 结构 。 我 们 将 在 这 本 书 中 研究 许多 数据 结构 的 性 质 ， 事 实 上 ， 将 这 本 书 称 为 《用 C 语 


2 梨 一 部 分 故 础 知识 





言 表示 的 算法 与 数据 结构 》 更 合适 。 

当 我 们 利用 计算 机 帮助 我 们 求解 问题 时 ， 一 般 都 会 面 对 许 多 不 同 的 方法 。 对 于 小 规模 的 
问题 ， 利 用 哪 一 个 方法 是 不 重要 的 ， 只 要 能 够 有 个 方法 正确 解决 问题 就 行 。 然 而 对 于 大 规模 
问题 (或 需要 求解 大 量 小 规模 的 问题 的 应 用 ) ， 我 们 的 动机 就 是 设计 时 间 和 空间 都 尽 可 能 高 效 
的 方法 。 

我 们 学 习 算法 设计 的 主要 原因 是 这 个 学 科 可 以 使 我 们 节省 大 量 的 时 间 和 空间 ， 甚 至 可 能 
使 原本 不 可 能 解决 的 问题 得 以 解决 。 在 我 们 处 理 数 百 万 个 对 象 的 一 个 应 用 中 ， 如 果 利 用 一 个 
设计 良好 的 算法 会 使 程序 快 上 数 百 万 倍 。 我 们 将 会 在 1.2 节 和 书 中 许多 地 方 看 到 这 样 的 例子 。 
与 之 相 比 ， 花 额外 的 钱 或 时 间 购 买 并 安装 一 台新 的 计算 机 可 能 使 程序 快 10 或 100 倍 。 无 论 应 用 
领域 是 什么 ， 精 细 的 算法 设计 都 是 求解 大 规模 问题 的 过 程 中 极其 有 效 的 部 分 。 

当 开 发 大 规模 或 复杂 计算 机 程序 时 ， 就 要 做 大 量 工作 理解 和 定义 要 被 求解 的 问题 ， 控 制 
它 的 复杂 度 ， 并 把 它 分 解 成 为 能 够 容易 实现 的 更 小 任务 。 通 常 分 解 之 后 ， 多 数 算法 容易 实现 。 
然而 ， 在 大 多 数 情 况 下 ， 还 有 少数 算法 的 选择 非常 关键 ， 因 为 大 多 数 系统 资源 将 会 消耗 在 运 
行 这 些 算 法 上 。 本 书 所 关注 的 算法 就 是 这 些 类 型 的 算法 。 我 们 将 会 研究 各 个 应 用 领域 中 用 于 
求解 大 规模 问题 的 各 种 基本 算法 。 

计算 机 系统 中 的 程序 共享 变 得 更 广泛 ， 因 而 ， 尽 管 我们 可 能 期 望 在 本 书 中 利用 大 部 分 的 
算法 ， 但 我 们 仍然 希望 实现 其 中 的 一 小 部 分 算法 。 然 而 ， 实 现 基本 算法 的 一 个 简单 版 本 可 以 
帮助 我 们 更 好 地 理解 算法 ， 并 能 更 有 效 地 利用 高 级 版 本 的 算法 。 更 重要 的 是 ， 基 本 算法 经 常 
需要 重新 实现 。 这 样 做 的 主要 原因 是 我 们 时 常 面 对 具 有 新 特征 的 全 新 的 计算 环境 (硬件 和 软 
件 方 面 )， 原 实现 也 许 不 能 最 好 地 利用 这 些 特征 。 换 句 话说 ， 我 们 常常 实现 适合 于 具体 问题 的 
基本 算法 ， 而 不 是 调用 系统 例 程 ， 以 使 我 们 的 解 具有 可 移植 性 和 持久 性 。 重 新 实现 基本 算法 
的 另 一 个 原因 是 许多 计算 机 系统 中 共享 软件 的 机 制 并 不 足够 强大 ， 从 而 使 标准 程序 适合 于 在 
特定 任务 上 有 效 地 执行 (或 者 这 样 做 还 不 够 方便 )， 因 而 有 时 实现 新 的 程序 更 容易 一 些 。 

计算 机 程序 常常 被 过 度 优化 。 费 力 确保 一 个 特定 算法 的 实现 最 有 效 也 许 并 不 值得 ， 除 非 
这 个 算法 在 大 量 任务 中 使 用 ， 或 者 多 次 使 用 。 否 则 ， 一 个 精细 的 相对 简单 的 实现 就 足够 了 。 
我 们 可 以 相信 它 会 运行 , 与 最 好 的 可 能 版 本 相 比 ， 最 坏 情 况 下 它 的 运行 速度 可 能 要 慢 5 到 10 倍 。 
这 意味 着 它 可 能 要 多 运行 几 秒 钟 。 与 此 相 比 ， 首 先 选择 恰当 的 算法 可 能 加 速 100 倍 、1000 倍 ， 
甚至 更 多 。 节 省 的 运行 时 间 可 能 达到 数 分钟 、 数 小 时 ， 甚 至 更 多 。 在 本 书 中 ， 我 们 侧重 于 这 
些 最 好 算法 的 最 简单 的 合理 实现 。 

选择 某 个 特定 任务 的 最 好 算法 可 能 是 一 个 复杂 的 过 程 ， 也 许 涉 及 复杂 的 数学 分 析 。 计 算 
机 科学 中 研究 这 些 问 题 的 分 支 称 为 算法 分 析 (analysis of algorithm) 。 分 析 表 明 我 们 研究 的 许 
多 算法 具有 杰出 的 性 能 ， 还 有 一 些 算法 经 过 实践 表明 可 以 很 好 地 工作 。 我 们 主要 的 目的 是 学 
习 求 解 重要 任务 的 合理 算法 ， 然 而 还 要 仔细 关注 这 些 方 法 之 间 可 比较 的 性 能 。 不 应 该 利用 不 
清楚 会 消耗 什么 资源 的 算法 ， 应 努力 了 解 我 们 到 底 期 望 我 们 的 算法 如 何 执行 。 


1.2 上 典型 问题 一 一 连通 性 


假设 给 定 整数 对 的 一 个 序列 ， 其 中 每 个 整数 表示 某 种 类 型 的 一 个 对 象 ， 我 们 想 要 说 明 对 
p-q 表 示 “Pp 连 接 到 q”。 假 设 “ 连 通 ” 关 系 是 可 传递 的 ， 也 就 是 说 如 果 p 和 9 之 间 连 通 ，q 和 r 之 
间 连 通 ， 那 么 p 和 r 也 连通 。 我 们 的 目标 是 写 一 个 过 滤 集 合 中 的 无 关 对 的 程序 。 程 序 的 输入 为 
对 p-q， 如 果 已 经 看 到 的 到 那 点 的 数 对 并 不 隐 含 着 p 连 通 到 q， 那 么 输出 该 对 。 如 果 前 面 的 对 确 
实 隐 含 着 p 连 通 到 9， 那 么 程序 应 该 忽略 p-q， 并 应 该 继续 输入 下 一 对 。 图 1-1 给 出 了 这 个 过 程 


的 一 个 例子 。 


我 们 的 问题 是 设计 能 够 记录 足够 多 它 所 看 见 的 数 对 信息 的 程序 ， 


象 对 是 否 是 连通 的 。 非 形式 地 ， 我 们 称 设计 这 样 一 个 算法 的 任 
务 为 连通 性 问题 。 这 个 问题 出 现在 许多 重要 的 应 用 中 。 我 们 这 
里 简略 地 考虑 三 个 例子 用 以 表明 问题 的 本 质 。 

例如 ， 整 数 可 以 表示 大 规模 网 络 中 的 计算 机 ， 而 对 表示 网 
络 中 的 连接 。 这 样 ， 就 可 利用 程序 确定 ， 是 需要 建立 新 的 p 和 9q 
能 够 通信 的 连接 ， 还 是 利用 已 有 连接 建立 通信 路 径 。 在 这 种 应 
用 中 ， 可 能 需要 处 理 数 百 万 个 和 数 十 亿 个 连接 ， 甚 至 更 多 。 正 
如 我 们 将 要 看 到 的 那样 ， 要 解决 那些 没有 高 效 算法 的 应 用 问题 
是 不 可 能 的 。 

类 似 地 ， 整 数 可 以 表示 电网 络 中 的 连接 点 ， 而 对 表示 连接 这 
些 点 之 间 的 连 线 。 在 这 种 情况 下 ， 如 果 可 能 ， 我 们 可 以 利用 程序 
找 出 连接 所 有 点 且 没 有 额外 连接 的 一 种 方式 。 事 实 上 ， 不 能 保证 
表 中 有 足够 多 的 边 连接 所 有 点 ， 我 们 将 会 看 到 确定 是 否 连 通 是 程 
序 的 一 个 主要 应 用 。 

图 1-2 中 说 明了 这 两 种 类 型 应 用 的 更 大 示例 。 考 察 这 个 图 可 
以 看 出 连通 问题 的 难度 ， 如 何 排列 才能 快速 断定 网 络 中 的 任何 给 
定 两 点 是 连通 的 ? 


二 归 理 


图 1-2 大 规模 连通 问题 示例 
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图 1-1 连通 问题 示例 


: 给 定 表 示 两 对 象 之 间 连 接 的 


整数 对 序列 〈 左 ) ， 连 通 算 
法 的 任务 是 输出 那些 提供 新 
的 连通 关系 的 对 (中 间 )。 
例如 ， 由 于 连通 关系 2-3-4- 
9 隐 含 在 前 面 的 数 对 中 ( 右 
边 给 出 了 这 个 证 明 )， 因 而 
对 2-9 不 是 输出 的 一 部 分 。 





注 : 连通 问题 中 的 对 象 可 以 表示 连接 点 ， 对 表示 它们 之 间 的 连接 。 正 如 在 这 个 理想 化 示例 中 表明 的 那样 ， 它 可 
以 表示 城市 中 连接 建筑 物 的 连 线 ， 或 者 表示 计算 机 芯片 上 的 连 线 。 图 形 化 的 表示 可 以 使 人 们 看 到 不 连通 点 ， 
但 算法 必须 在 给 定 的 整数 对 上 才能 工作 。 标 示 为 大 黑 点 的 两 个 点 是 否 是 连通 的 ? 
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还 有 一 个 例子 出 现在 某 种 程序 设计 环境 中 ， 连 通 性 可 用 来 断言 两 个 变量 名 是 否 等 价 。 问 
题 是 在 经 过 这 样 的 断言 序列 之 后 ， 能 够 确定 两 个 给 定 的 名 字 是 否 等 价 。 这 个 应 用 激发 了 我 们 
打算 考虑 的 几 个 算法 的 研制 。 它 直接 将 我 们 的 问题 与 一 种 简单 抽象 关联 起 来 ， 为 使 算法 具有 
广泛 应 用 而 提供 了 一 种 方法 。 我 们 即将 看 到 这 一 点 。 

像 上 一 段 描述 的 变量 名 等 价 问题 这 样 的 应 用 程序 要 求 我 们 把 每 个 不 同 的 变量 名 与 一 个 整 
数 关 联 起 来 。 这 种 关联 关系 也 隐 含 在 前 面 描述 的 网 络 连接 和 电路 连接 的 应 用 中 。 在 第 10 章 至 
第 16 章 ， 我 们 将 会 以 一 种 更 高 效 的 方法 考虑 提供 这 种 连接 关系 的 大 量 算法 。 因 此 ， 不 失 一 般 
性 ， 本 章 假 设 有 N 个 对 象 ， 每 个 都 与 0 ~ N 一 1 之 间 的 一 个 整数 名 对 应 。 

我 们 正在 寻求 完成 特定 和 良 定义 任务 的 程序 ， 可 能 还 想 要 解决 其 他 许多 相关 的 问题 。 在 
研制 算 芯 时 我 们 面 对 的 首要 任务 之 一 是 确信 我 们 已 经 以 合理 的 方式 指定 了 问题 。 我 们 要 求 算 
法 的 越 多 ， 它 完成 任务 所 需要 的 时 间 和 空间 越 多 。 不 可 能 量化 这 个 关系 ， 并 且 我 们 在 发 现 一 
个 问题 难以 求解 或 是 求解 代价 昂贵 ， 或 是 在 好 的 情况 下 ， 发 现 算法 可 以 比 原 始 说 明 提供 更 多 
有 用 的 信息 时 ， 我 们 常常 修改 这 个 问题 的 说 明 。 

例如 ， 我 们 的 连通 问题 的 说 明 只 要 求 我 们 的 程序 知道 任意 给 定 对 p-q 是 否 是 连通 的 ， 并 不 
能 够 表明 连接 那个 对 的 任何 方式 。 添 加 这 样 一 个 说 明 的 要 求 会 使 问题 更 加 困难 ， 会 涉及 其 他 
的 算法 ， 我 们 将 在 第 5 章 简略 讨论 ， 并 在 第 7 章 详细 讨论 。 

前 面 这 段 提 到 的 说 明 要 比 原 始 说 明 要 求 更 多 的 信息 ， 我 们 也 可 以 要 求 更 少 的 信息 。 例 如 ， 
我 们 可 能 只 想 回 答 这 样 的 问题 :“M 个 连接 足以 把 N 个 对 象 都 连接 起 来 吗 ? ”这 个 问题 表明 ， 
要 研制 一 个 高 效 的 算法 ， 常 常 需要 我 们 对 正在 处 理 的 抽象 对 象 进 行 高 级 推理 。 在 这 种 情况 下 ， 
由 图 论 基本 结果 可 以 得 出 所 有 N 个 对 象 是 连通 的 ， 当 且 仅 当 连 通 算 法 输出 的 对 的 个 数 恰好 为 
N 一 1 ( 见 5.4 节 )。 换 名 话说 ， 连 通 算法 永远 不 会 输出 多 于 N 一 1 个 对 ， 这 是 因为 一 旦 它 输出 N 一 1 
个 对 ， 则 它 从 那个 时 刻 遇 见 的 任何 对 将 会 是 连通 的 。 因 此 ， 我 们 可 以 修改 求解 连通 问题 的 程 
序 ， 增 加 一 个 计数 器 就 可 以 得 到 一 个 回答 yes-no 问 题 的 程序 ， 而 不 输出 那些 前 面 不 连通 的 每 个 
对 ， 当 计数 器 的 值 为 N 一 1 时 ， 程 序 回 答 “yes”， 否 则 回答 “no”。 这 个 问题 只 是 我 们 希望 回答 
关于 连通 性 的 许多 问题 中 的 一 个 例子 。 输 入 对 的 集合 称 为 图 (graph) ， 输 出 对 的 集合 称 为 图 
的 生成 树 ， 它 连接 了 所 有 对 象 。 我 们 在 第 七 部 分 考察 图 、 生 成 树 以 及 所 有 相关 算法 的 性 质 。 

努力 确定 算法 执行 的 基本 操作 很 重要 ， 这 使 我 们 为 连通 问题 设计 的 算法 可 以 用 于 许多 类 
似 的 问题 。 确 切 地 说 ， 每 当 我 们 得 到 一 个 新 对 时 ， 我 们 必须 首先 确定 它 是 否 表示 一 个 新 的 连 
接 ， 然 后 把 已 经 看 到 的 连接 信息 合并 到 已 得 到 的 对 象 的 连通 关系 中 ， 使 得 它 能 够 检查 将 要 看 
到 的 连接 。 我 们 把 这 两 个 任务 封装 成 为 抽象 操作 ， 用 整数 输入 值 表示 抽象 集合 中 的 元 素 ， 然 
后 设计 算法 和 数据 结构 ， 使 其 

。 查 找 (find) 包含 给 定数 据 项 的 集合 。 

。 用 它们 的 并 集 (union) 替换 包含 两 个 给 定数 据 项 的 集合 。 
按照 这 些 抽 象 操作 组 织 我 们 的 算法 似乎 并 不 妨碍 求解 连通 性 问题 ， 并 且 这 些 操 作 可 能 用 于 求 
解 其 他 的 问题 。 在 计算 机 科学 中 ， 特 别 是 在 算法 设计 中 ， 开 发 更 高 层次 的 抽象 是 一 项 重要 的 
过 程 ， 贯 穿 本 书 我 们 会 看 到 大 量 这 样 的 情况 。 在 这 一 章 里 ， 我 们 利用 非 形式 的 抽象 思维 指导 
我 们 设计 解决 连通 问题 的 程序 。 在 第 4 章 里 ， 我 们 会 看 到 如 何 用 C 代 码 封 装 抽象 。 

根据 查找 和 合并 抽象 操作 容易 求解 连通 性 问题 。 在 从 输入 读 取 一 个 新 的 对 p-q 后 ， 对 于 对 
中 的 每 个 数 执行 查找 操作 。 如 果 对 的 成 员 在 同一 集合 中 ， 那 么 考虑 下 一 对 ， 如 果 它 们 不 在 同 
一 集合 中 ， 则 执行 合并 操作 ， 并 输出 这 个 对 。 集 合 表 示 连 通 分 量 (connected component) ， 即 
那些 给 定 分 量 中 的 任何 两 个 对 象 是 连通 的 对 象 的 集合 。 这 种 方法 把 开发 连通 问题 算法 解 的 过 
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程 变 为 定义 表示 集合 的 数据 结构 以 及 开发 高 效 利用 这 个 数据 结构 的 查找 和 合并 算法 。 

有 许多 用 于 表示 和 处 理 抽象 集合 的 方法 ， 我 们 在 第 4 章 会 更 详细 地 考虑 这 些 方法 。 在 这 一 
章 里 ， 我 们 集中 在 找到 一 种 能 够 高 效 支持 合并 和 查找 操作 的 表示 方法 上， 这 些 操作 用 于 求解 
连通 问题 。 
练习 
1.1 给 定 输入 0-2，1-4，2-5，3-6，0-4，6-0 和 1-3， 给 出 连通 算法 所 产生 的 输出 。 

12 列 出 图 1-1 示 例 中 连接 两 个 不 同 对 象 的 所 有 不 同方 式 。 . 
1.3 描述 一 种 统计 正文 中 使 用 合并 和 查找 操作 求解 连通 问题 之 后 的 剩余 集合 的 个 数 的 简单 方法 。 


1.3 合并 一 查找 算法 


开发 求解 给 定 问 题 高 效 算法 的 过 程 的 第 一 步 是 实现 解 这 个 问题 的 一 个 简单 算法 。 如 果 我 们 
需要 解决 儿 个 容易 的 特定 问题 的 实例 ， 那 么 简单 实现 就 能 完成 这 项 工作 。 如 果 要 用 更 复杂 的 
算法 ， 简 单 实现 可 以 用 于 检查 小 规模 例子 的 正确 性 ， 并 成 为 评估 算法 性 能 的 一 个 基准 。 我 们 
总 是 关注 算法 的 效率 ， 但 我 们 在 开发 解决 问题 的 第 一 个 程序 时 更 关注 的 是 确保 程序 的 正确 性 

首先 考虑 如 何 存储 所 有 输入 对 ， 然 后 写 一 个 遍历 这 些 输入 的 函数 ， 然 后 检查 下 一 对 对 象 
是 否 是 连通 的 。 我 们 会 用 另 一 种 方法 。 首 先 ， 实 际 应 用 中 对 的 个 数 可 能 会 很 大 ， 不 能 把 它们 
金 部 放 在 内 存 中 。 其 次 ， 更 重要 的 是 ， 即 使 我 们 能 够 把 它们 都 放 在 内 存 中 ， 也 没有 一 种 简单 
方法 能 够 由 连接 关系 集合 很 快 地 确定 两 个 对 象 是 否 是 连通 的 ! 在 第 5 章 中 会 讨论 使 用 这 种 方法 
的 一 个 基本 算法 ， 但 在 这 一 章 中 我 们 考虑 的 方法 更 简单 ， 因 为 它们 可 以 求解 难度 更 小 的 问题 ， 
且 这 些 方法 不 要 求 存储 所 有 对 ， 因 而 是 更 高 效 的 方法 。 这 些 方法 利用 整数 数组 ， 每 个 整数 对 
应 一 个 对 象 ， 用 于 保存 实现 合并 和 查找 操作 时 所 需要 的 必要 信息 。 

数组 是 基本 的 数据 结构 ， 将 在 3.2 节 中 详细 讨论 它 。 这 里 是 使 用 它们 的 一 个 最 简单 的 形式 ， 
我 们 声明 1000 个 整数 的 数组 ， 写 为 af1000] 。a[1] 表 示 引 用 数组 中 的 第 ;个 整数 ， 其 中 0 <i 
<1000, 






We 


这 个 程序 从 标准 输入 读 取 小 于 N 的 非 负 整数 对 序列 (对 p-q 表 示 “ 把 对 象 8 连接 到 q”) ， 并 
且 输 出 还 未 连通 的 输入 对 。 程 序 中 使 用 数组 id， 每 个 元 素 表示 一 个 对 象 ， 且 具有 以 下 性 质 ， 
当 且 仅 当 p 和 q 是 连通 的 ，id[p] 和 id[q] 相 等 。 为 简化 起 见 ， 定 义 N 为 编译 时 的 常数 。 另 一 方 
面 ， 也 可 以 从 输入 得 到 它 ， 并 动态 地 为 它 分 配 id 数 组 ( 见 3.2 节 )。 
#include <stdio.h> 
#define N 10000 
main() 
{f int i, p, q, t, id[N]; 
for (i = 0; i < Ni i++) id[i] = i; 
while (scanf("%d %d\n", gp, &q) == 2) 
{ 
if (id[p] == id[q]) continue; 
for (t = id[p], i = 0; i < N; i++) 
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if (id[i] == +) id[i] = ida[q] ; 
printf(" yd %a\n", p, qq); 
} 
} 


图 1-3 显 示 了 对 图 1-1 中 示例 执行 合并 操作 后 的 结果 。 
为 了 实现 查找 操作 ， 只 需 测 试 指 示 数 组 中 的 元 素 是 否 相 等 ， 
因此 称 之 为 快速 查找 。 而 合并 操作 对 于 每 对 输入 需要 扫描 
整个 数组 。 

性 质 1.1 ”求解 N 个 对 象 的 连通 性 问题 ， 如 果 执 行 M 次 
合并 操作 ， 那 么 快速 查找 算法 至 少 执行 MN 条 指令 。 
对 于 每 个 合并 操作 ，for 循 环 迭 代 N 次 。 每 次 迭代 至 少 需要 
执行 一 次 指令 (如 果 只 检测 循环 是 否 结束 )。 

现代 计算 机 上 每 秒 可 以 执行 数 千 万 甚至 上 亿 条 的 指令 ， 
因而 如 果 M 和 六 的 值 较 小 ， 这 个 开销 不 是 那么 大 ， 但 在 现 
代 应 用 中 ， 可 能 有 数 百 个 对 象 ， 数 亿 个 输入 。 再 用 快速 查 
找 算 法 求解 这 样 的 问题 则 不 可 行 〈 见 练习 1.10) 。 我 们 将 在 ”图 1-3 快速 查找 示例 ( 慢 速 合并 ) 
第 ?2 章 简明 地 量化 这 个 结论 。 注 ， 这 个 序列 描述 了 快速 查找 算法 《各 

图 1-4 是 图 1-3 中 示例 的 图 形 化 表示 。 我 们 可 以 把 某 个 序 1.1) 在 左边 每 对 上 执行 后 id 数 组 
对 象 看 做 它们 所 属 集合 的 代表 ， 其 他 所 有 对 象 指向 它们 所 中 的 内 容 变 化 情况 。 粗 体 部 分 是 执 
属 集合 的 代表 。 用 图 形 表示 数组 的 原因 很 快 就 会 清楚 。 观 人 dt] 
察 可 见 ， 这 种 表示 中 的 对 象 之 间 的 连接 不 必 就 是 输入 对 的 。 。 的 元 素 变 为 1d[q] 
连接 。 它 们 是 算法 选择 记 住 的 一 些 信息 ， 通 过 这 些 信息 算 
法 可 以 确定 未 来 对 是 否 是 连通 的 。 

我 们 考虑 的 下 一 个 算法 是 称 为 快速 合并 的 补 算法 。 它 是 基于 同一 个 数据 结构 ， 即 通过 对 
象 名 引用 数组 元 素 ， 但 数组 元 素 表达 的 含义 不 同 ， 具 有 更 复杂 的 抽象 结构 。 在 一 个 没有 环 的 
结构 中 ， 每 个 对 象 指 向 同一 集合 中 的 另 一 个 对 象 。 要 确定 两 个 对 象 是 否 在 同一 个 集合 中 ， 只 
需 跟随 每 个 对 象 的 指针 ， 直 到 到 达 指 向 自身 的 一 个 对 象 。 当 且 仅 当 这 个 过 程 使 两 个 对 象 到 达 
同一 个 对 象 时 ， 这 两 个 对 象 在 同一 个 集合 中 。 如 果 两 者 不 在 同一 个 集合 中 ， 最 终 一 定 到 达 不 
同 对 象 〈 每 个 对 象 都 指向 自身 )。 为 了 构造 合并 操作 ， 我 们 只 需 将 一 个 对 象 链接 到 另 一 个 对 象 
以 执行 合并 操作 ， 因 此 ， 命 名 为 快速 合并 (quick-union)。 

图 1-5 显 示 的 图 形 化 表示 对 应 图 1-4， 它 是 用 快速 合并 算法 执行 图 1-1 中 示例 的 结果 。 图 1-6 
显示 了 id 数 组 中 的 相应 变化 。 数 据 结 构 的 图 形 化 表示 利于 相对 容易 地 理解 算法 中 的 操作 ， 也 
就 是 说 数据 中 已 知 是 连通 的 输入 对 在 数据 结构 中 的 对 也 是 连通 的 。 正 如 前 面 提 到 的 那样 ， 开 
始 时 数据 结构 中 的 连接 并 不 一 定 是 输入 对 中 蕴含 的 连接 ， 算 法 中 构造 的 数据 结构 中 的 连接 是 
为 使 合并 和 查找 操作 更 容易 高 效 实现 。 . 

图 1-5 中 描述 的 连通 部 分 称 为 树 (tree)。 它 们 是 基本 的 组 合 结构 ， 将 在 本 书 通 篇 的 许多 情 
况 中 遇 到 ， 并 在 第 5 章 详 细 讨 论 树 的 性 质 。 对 于 合并 和 查找 操作 ， 图 1-5 中 的 树 是 有 用 的 ， 因 
为 它们 可 以 快速 建立 ， 并 且 具 有 性 质 : 当 且 仅 当 两 个 对 象 在 输入 中 是 连通 时 ， 这 两 个 对 象 在 
树 中 连通 。 洛 着 树 向 上 ， 可 以 很 容易 地 找到 包含 每 个 对 象 的 树 的 树 根 ， 于 是 我 们 就 有 了 一 种 
查找 它们 是 否 连通 的 方法 。 每 棵 树 只 有 一 个 对 象 指向 它 自 己 ， 这 个 对 象 称 为 树 的 根 (root)。 
图 中 没有 显示 指向 自己 的 指针 。 当 我 们 从 树 中 的 任 一 对 象 开始 ， 并 移 到 它 指向 的 对 象 ， 然 后 
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图 1-4 快速 查找 算法 的 树 形 表示 


注 : 这 幅 图 描述 了 图 1-3 中 示例 的 图 形 北 表示 。 这 些 图 

中 的 连接 并 不 一 定 表示 输入 中 的 连接 。 例 如 ， 最 

后 一 棵 树 的 结构 中 有 1-7 这 样 的 连接 ， 它 不 在 输入 

中 ， 而 是 由 连接 7-3-4-9-5-6-1 形 成 的 。 

移 到 那个 对 象 指向 的 对 象 ， 如 此 这 样 ， 最 终 
总 会 在 根 节点 结束 。 我 们 可 以 用 归纳 法 证 明 
这 一 性 质 为 真 ， 数组 初始 化 后 ， 每 个 对 象 指 
向 自己 ， 性 质 为 真 ， 并 假设 在 给 定 的 某 个 合 
并 操作 之 前 它 为 真 ， 那 么 合并 操作 后 性 质 仍 
然 为 真 。 

1-4 所 示 的 快速 查找 算法 也 具有 上 述 
描述 的 性 质 。 这 两 个 性 质 的 不 同 之 处 在 于 ， 
在 快速 查找 树 中 所 有 节点 只 需 一 个 链接 就 可 
到 达 树 根 ， 而 在 快速 合并 树 中 ， 可 能 要 经 过 
几 个 链接 才能 到 达 树 根 。 

程序 1.2 是 合并 和 查找 操作 的 一 种 实现 ， 
它们 包含 了 求解 连通 问题 的 快速 合并 算法 。 
快速 合并 算法 似 平 比 快速 查找 算法 要 快 ， 这 
是 因为 对 于 每 个 输入 对 它 并 不 需要 遍历 整个 
数组 。 但 是 究竟 它 有 多 快 呢 ? 在 此 回答 这 个 
问题 比 回答 快速 查找 的 同样 问题 更 难 ， 因 为 
运行 时 间 更 多 地 依赖 于 输入 的 特性 。 通 过 实 
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图 1-5 快速 合并 算法 的 树 形 表示 


注 : 该 图 是 图 1-3 中 示例 的 图 形 化 表示 。 我 们 画 了 从 对 
象 1 到 对 象 i1d[i] 的 一 条 线 。 
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图 1-6 快速 合并 算法 示例 (不 是 太 快 的 查找 ) 


: 这 个 序列 描述 了 快速 合并 算法 (程序 1.2) 在 左边 每 对 上 
执行 后 id 数组 中 的 内 容 变 化 情况 。 粗 体 部 分 是 执行 合并 
操作 后 (每 次 操作 做 一 个 改变 ) 改变 的 元 素 。 当 我 们 处 
理 对 p-q 时 ， 沿 着 从 p 开 始 的 指针 到 达 id[i] == 1 的 元 素 
i;， 然后 活着 从 9 开始 的 指针 到 达 id[j] 一 j 的 元 素 j; 如 
果 1 和 jj 不 等 ， 则 设 id[i] = id[j]。 对 于 最 后 一 行 的 对 5- 
8 的 查找 操作 ，i 的 取 值 为 5 6 9 0 1，j 的 取 值 为 8 0 1。 


8 第 一 部 分 基 硕 知 旅 - 
际 运行 或 进行 数学 分 析 ( 见 第 2 章 )， 可 以 确信 程序 1.2 比 程序 1.1 有 效 得 多 ， 且 对 于 大 规模 实际 
问题 程序 1.2 更 可 行 。 本 节 最 后 将 讨论 一 个 实际 例子 。 现 在 ， 我 们 可 以 认为 快速 合并 算法 是 一 
种 改进 ， 因 为 它 去 掉 了 快速 查找 的 主要 局 限 性 (对 N 个 对 象 执行 M 次 合并 操作 ， 程 序 至 少 需 要 
MN 条 指令 )。 


| 程序 1.2 连通 问题 的 快速 合并 解法 

如 果 用 这 段 代码 替换 程序 1 1 中 的 whi1e 循 环 体 ， 我 们 就 得 到 一 个 同样 满足 程序 1 中 说 明 
的 程序 ， 但 其 合并 操作 的 计算 时 间 较 短 ， 查 找 操作 的 计算 时 间 更 长 。 这 个 代码 中 的 for 循 环 以 
及 其 后 的 if 语 句 指明 了 在 数组 1d 中 p 和 q 是 连通 的 充分 必要 条 件 。 赋 值 语句 id[1] = j 实 现 合 
并 操作 。 

for (i = p; i != id[i]; i = id[i]) ; 

for (j = q; j {= id[j]; j = id[j]) ; 

if (i == j) continue; 

id[i] = j; 

printf(" %d %d\n", p, q); 





快速 合并 算法 与 快速 查找 算法 之 间 的 差异 的 确 代表 着 一 种 改进 ， 但 是 快速 合并 算法 仍然 
具有 局 限 性 ， 我 们 不 能 保证 每 种 情况 下 ， 它 都 会 比 快速 查找 算法 要 快 ， 因 为 输入 数据 可 能 使 
查找 操作 变 慢 。 
性 质 1.2 对 于 M > N， 快速 合并 算法 求解 N 个 对 象 、 MM 个 对 的 连通 问题 需要 执行 MN/2 条 
旨 令 。 
假定 输入 对 按照 1-2，2-3，3-4，… 的 次 序 出现 。N-1 个 这 样 的 输入 对 之 后 ， 可 得 N 个 对 象 都 
在 同一 个 集合 中 ， 且 快速 合并 算法 形成 的 树 是 一 条 直线 ， 其 中 NN 指向 N-1，N 一 1 指向 N 一 2， 
N 一 2 指向 N-3， 依 此 类 推 。 要 在 对 象 N 上 执行 查找 操作 ， 程 序 必须 遍历 N~1 个 指针 。 因 此 ， 对 
前 N 个 对 遍历 的 平均 指针 数 为 
(0+1+.…+(N—I/N = (N-—1)/2 
现在 假设 其 余 对 都 把 N 连 接 到 某 个 对 象 。 每 对 进行 查找 操作 至 少 访问 N-1 个 指针 。 因 而 在 这 个 
输入 对 序列 上 执行 M 个 查找 操作 访问 的 指针 总 数 必定 大 于 MN/2。 是 
幸运 的 是 ， 简 单 修改 算法 就 可 以 保证 不 会 出 现 这 样 的 最 坏 情 况 。 在 合并 操作 中 ， 不 是 任 
意 地 把 第 二 棵 树 连 接 到 第 一 棵 树 上 ， 而 是 记录 每 棵 树 中 的 节点 数 ， 总 是 把 较 小 的 树 连接 到 较 
大 的 树 上 。 这 种 修改 只 增加 一 点 代码 ， 需 要 另 一 数组 保存 节点 计数 ， 如 程序 1.3 所 示 。 但 其 结 
采 导 致 效率 上 的 巨大 改进 。 我 们 称 这 个 算法 为 加 权 快 速 合并 算法 (weighted quick-union 
algorithm)。 
i os 程序 1. 3 加 权 快 速 合并 算法 ， 0 0 
这 个 程序 是 快速 合并 算法 ( 见 程序 1.2) 的 一 个 改进 。 用 另 一 个 数组 sz 记录 每 个 [1] == 
i 的 对 象 所 在 树 中 的 节点 数 ， 使 得 合并 操作 能 够 把 较 小 的 树 连接 到 较 大 的 树 上， 以 防止 树 中 长 
路 径 的 增长 。 
#include <stdio.h> 
#define N i10000 
main() 
{f int i, j, p, q, id[N], sz[N]; 
for (i = 0; i < N; i++) 
{ id[fi] = i; sz[i] = 1; } 





while (scanf("%d %d\n", &p, &q) == 2) 
{ 
= p; i != id[i]; i 
for (j = q; ji != id[j]; j 
if (i == j) continue; 
if (sz[i] < sz[j]) 
{ id[i] = j; sz[j] += sz[i]; } 
else { id[j] = i; sz[i] += sz[j]; } 
printf(" %d %d\n", p, 9q); 


}、 





图 1-7 显 示 了 加 权 合 并 一 查找 算法 对 于 图 1-1 中 输入 示例 所 构造 的 树 的 森林 。 即 使 是 个 较 小 
例子 ， 树 中 的 路 径 要 比 图 1-5 中 未 加 权 的 快速 合并 算法 要 短 得 多 。 图 1-8 说 明了 当 合并 操作 中 待 
归并 集合 的 大 小 总 是 相等 时 ， 出 现 最 坏 情 况 。 这 些 树 结构 看 起 来 复杂 ， 但 它们 具有 简单 性 质 ， 
就 是 在 一 棵 2 个 节点 的 树 中 ， 到 达 根 节点 需要 遍历 的 指针 数 为 mn。 进 一 步 涪 ， 当 归并 节点 数 为 
2 的 两 棵 树 时 ， 可 以 得 到 2” 个 节点 的 树 。 到 根 节点 的 最 大 距离 增加 到 za+1。 概 括 这 个 观察 结 
果 ， 可 得 加 权 快 速 合并 算法 比 未 加 权 的 算法 更 高 效 的 一 个 证 明 。 
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图 1-7 加 权 快 速 合 并 算法 的 树 形 表示 图 1-8 加 权 快 速 合并 算法 (最 坏 情 况 ) 
注 : 这 个 序列 描述 了 将 快速 合并 算法 改 为 把 两 棵 树 中 较 。 注 : 加 权 快 速 合并 算法 的 最 坏 情况 出 现在 每 交合 并 操 
小 树 的 树 根 连接 到 较 大 树 的 树 根 上 的 结果 。 这 棵 树 中 作 连 接 大 小 相等 的 两 棵 树 。 如 果 对 象 个 数 小 于 2"， 


每 个 节点 到 根 节点 的 距离 变 小 ,因而 查找 操作 更 高 效 。 那么 从 任 一 节点 到 树 的 根 节 点 的 距离 小 于 nn。 
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性 质 1.3 
要 遍历 21gN 个 指针 。 
我 们 可 以 证 明 合并 操作 维持 了 性 质 : 在 一 个 k 个 
对 象 的 集合 中 ， 从 任 一 节点 到 达 根 节点 所 访问 的 
指针 数 不 大 于 lg k (没有 计算 指向 自己 的 根 节点 
的 指针 )。 当 我 们 合并 i 个 节点 的 一 个 集合 与 ;个 节 
点 的 一 个 集合 时 ， 且 i<j， 把 必须 遍历 的 i 个 节点 
的 集合 中 的 指针 数 增 1 ， 但 这 些 指针 现在 在 大 小 
为 i+j 的 集合 中 ， 于 是 由 1 + lgi=1lg(i+ 让 <lg(i+ 
四 可 得 性 质 成 立 。 1 国 

实际 实现 性 质 1.3 时 ， 加 权 快 速 合 并 算法 至 多 
利用 M lg N 条 指令 处 理 N 个 对 象 的 M 条 边 ( 见 练 
习 1.9)。 与 早先 快速 查找 算法 至 少 利 用 MN/2 条 指 
令 相 比 ， 这 个 结果 好 得 多 。 由 此 可 得 ， 利 用 加 权 
快速 合并 算法 ， 可 以 保证 在 合理 时 间 内 求解 大 规 
模 实际 问题 ( 见 练 习 1.11)。 只 需 增加 几 行 代码 ， 
就 可 以 得 到 求解 实际 中 遇见 的 大 规模 问题 的 一 个 
速度 提高 百 万 倍 的 算法 。 

由 图 可 见 ， 相 对 少 的 节点 距 根 节点 较 远 。 实 际 
上 ， 大 规模 问题 的 实验 研究 表明 程序 1.3 中 的 加 权 
快速 合并 算法 可 在 线性 (linear) 时 间 求 解 实际 问 
题 。 也 就 是 说 ， 运 行 算法 所 需 时 间 是 读 取 输入 时 间 
的 常数 倍数 。 我 们 几乎 再 找 不 到 更 高 效 的 算法 。 

我 们 会 问 是 否 可 以 找到 一 个 保证 线性 性 能 的 
算法 。 这 是 一 个 困扰 了 研究 人 员 多 年 的 相当 难 的 
问题 ( 见 2.7 节 )。 有 许多 简单 方法 可 以 进一步 改 
进 加 权 快 速 合并 算法 。 理 想 情况 下 ， 我 们 希望 每 
个 节点 直接 指向 它 的 根 节点 ， 但 又 不 希望 像 在 快 
速 合 并 算法 中 所 做 的 那样 ， 花 费 代价 修改 大 量 指 
针 。 我 们 可 以 简单 地 使 检查 的 所 有 节点 指向 树 的 
根 节 点 。 这 一 步 看 似 不 切实 际 ， 但 却 容易 实现 ， 
只 需要 修改 这 些 树 的 结构 : 如果 修 改 树 的 结构 使 
算法 更 容易 实现 ， 就 应 该 这 样 做 。 这 种 方法 可 以 
容易 地 实现 , 称 它 为 路 径 压 缩 (path compression ) 。 
在 合并 操作 过 程 中 ， 添 加 经 过 每 条 路 径 的 另 一 个 
指针 ， 使 沿路 遇见 的 每 个 顶点 对 应 的 id 元 素 指向 
树 的 根 节 点 。 结 果 是 几乎 使 树 完 全 平 扁 ， 接 近 快 
速 查找 算法 达到 的 理想 情况 ， 如 图 1-9 所 示 。 确 立 
这 个 事实 的 分 析 相 当 复 杂 ， 但 方法 简单 高 效 。 图 
1-11 给 出 了 大 规模 示例 路 径 压缩 的 一 个 结果 。 


注 : 


对 于 N 个 对 象 ， 加 权 快 速 合并 算法 判定 其 中 的 两 个 对 象 是 否 是 连通 的 ， 至 多 需 





图 1-9 路 径 压 缩 


我 们 还 可 以 使 树 中 的 路 径 更 短 ， 存 合并 操作 中 使 所 
有 访问 的 对 象 指向 新 树 的 根 节点 。 如 这 两 个 例子 中 
所 示 。 上 面 的 例子 对 应 图 1-7 的 结果 。 对 于 较 短 路 
径 ， 路 径 压缩 没有 作用 ， 当 我 们 处 理 对 1-6 时 ， 使 1、 
5 和 6 都 指向 3， 并 得 到 一 棵 比 图 1-7 更 遍 的 一 棵 树 。 
下 面 的 例子 对 应 图 1-8 的 结果 。 长 于 1 或 2 个 链接 的 路 
径 可 以 扩展 , 但 无 论 何 时 遍历 它们 ,都 使 它们 平 扁 。 
当 处 理 对 6-8 时 ， 通 过 使 4、6 和 8 部 指向 0 使 树 平 扁 。 
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图 1-10 等 分 路 径 压缩 


注 : 我 们 可 以 大 约 等 分 树 中 向 上 的 路 径 ， 每 次 取 两 


个 链接 ， 并 使 下 面 的 链接 指向 上 面 链接 的 同一 
节点 上 ， 如 图 所 示 。 在 遍历 的 每 条 路 径 上 执行 
这 个 操作 的 结果 潮 近 与 完全 路 径 压 缩 相 同 。 


图 1-11 路 径 压缩 的 大 规模 示例 的 效果 


注 : 这 个 序列 描述 了 用 带 有 路 径 压 缩 的 加 权 快 速 合并 算法 处 理 100 个 对 象 的 随机 对 的 结果 。 除 了 两 个 节点 之 外 ， 
树 中 的 所 有 节点 距 根 节点 的 距离 为 1 或 2。 


还 有 许多 方法 可 以 实现 路 径 压缩 。 例 如 ， 程 序 1.4 是 一 种 实现 ， 它 通过 使 每 条 链接 跳跃 到 
于 门 二 的 路 从 的 下 “个 节点 实现 压缩 如 图 1-10 所 示 。 这 种 方法 比 完全 路 径 压缩 ( 见 练习 
1.16) 实现 起 来 稍微 容易 一 些 ， 并 能 达到 同样 的 结果 。 我 们 称 这 种 方法 为 带 有 等 分 路 径 压缩 
所 加 权 亿 过- 合并 茎 法 这些 攻 法 中 归 一 个 更 高 效 吧 ? "下 省 的 时 疝 王 这 加 和 让 二 全 全 人 二 
外 时 间 相 比 是 否 值得 ? 存在 其 他 应 该 考虑 的 技术 吗 ? 为 了 回答 这 些 问 题 ， 我 们 需要 更 仔细 地 
研究 算法 与 实现 。 在 第 2 章 会 回 到 这 个 主题 ， 讨 论 算法 分 析 的 基本 方法 。 

我 们 后 面 考 虑 的 求解 连通 问题 的 最 终结 果 几 乎 是 实际 意义 下 期 望 最 好 的 算法 。 有 一 些 易 
于 实现 的 算法 ， 可 保证 其 运行 时 间 是 采集 数据 时 间 的 常数 倍 。 此 外 ， 在 线 算法 (online 
algorithm) 只 把 每 一 边 考虑 一 次 ， 所 用 空间 与 对 象 数 成 正比 ， 因 而 对 能 够 处 理 的 边 数 没有 限 
制 。 表 1-1 中 的 实验 数据 证 实 了 程序 1.3 和 它 的 路 径 压缩 的 变形 其 至 可 以 用 于 大 规模 实际 问题 。 
半 择 最 好 的 算法 需要 进行 仔细 和 复杂 的 分 析 ( 见 第 2 章 )。 


1 程序 1.4 | 往 分 路 径 庄 编 ， 


”如 果 我 们 用 这 段 代码 替 换 程序 1. 3 中 的 for 循 环 ， 就 等 分 了 遍历 的 任何 路 经 的 长 度 。 改变 
的 结果 是 经 过 长 序列 的 合并 操作 之 后 ， 树 几乎 完全 是 扁平 的 。 
for (i = p; i != id[i]; i = id[i]l) 
id[i] = id[id[i]]; 
for (j= q; j != id[j]; j = id[j]) 
id[j] = id[id[j]]; 





表 1-1 合并 一 查找 算法 的 实验 研究 


这 些 相对 时 间 表 明 ， 在 求解 随机 连通 问题 的 各 种 合并 -查找 算法 中 ， 加 权 快速 合并 算法 是 最 高 效 的。 路 径 压 缩 所 
带 来 的 好 处 不 是 那么 重要 。 在 这 些 实验 中 ，M 是 连接 所 有 N 个 对 象 产 生 的 随机 连接 数 。 这 个 过 程 中 执行 查找 操作 次 数 
比 合并 操作 次 数 多 ， 因 而 实际 上 快速 合并 比 快速 查找 要 慢 。 对 于 较 大 的 W， 快 速 查找 和 快速 合并 都 不 可 行 。 显 然 加 权 
方法 的 运行 时 间 与 N 成 正比 ， 当 N 加 倍 时 ， 运 行 时 间 也 加 倍 。 





N M F U Ww P H 
1 000 6 202 14 25 6 5 3 
2 500 20 236 82 210 13 15 12 
5 000 41 913 304 1 172 46 26 25 
10 000 83 857 1216 4577 91 73 50 
25 000 309 802 219 208 216 
50 000 708 701 469 387 497 
100 000 1 545 119 1071 1 106 1096 
其 中 ， 


F 快速 查找 算法 (程序 1.1) 

U 快速 合并 算法 (程序 1.2) 

W 加 权 快 速 合并 算法 (程序 1.3) 

P 带 有 路 径 压缩 的 加 权 快 速 合并 算法 (练习 1 16) 
H 带 有 等 分 的 加 权 快 速 合 并 算法 (程序 1.4) 
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练习 

> 1.4 如 果 输 入 序列 为 0-2，1-4，2-5，3-6，0-4，6-0 和 1-3， 利 用 快速 -查找 算法 (程序 1.1) 
求解 连通 问题 ， 显 示 每 次 执行 合并 操作 后 ，id 数 组 中 的 内 容 。 同 时 对 于 每 个 输入 对 ， 给 出 程 
序 访问 id 数 组 的 次 数 。 

> 1.5 利用 快速 合并 算法 (程序 1.2) 做 练习 1.4。 

> 1.6 ”利用 加 权 快 速 一 合并 算 潜 运行 图 1-7 和 图 1-8 中 的 例子 ， 显 示 每 次 执行 合并 操作 后 ，id 数 
组 中 的 内 容 。 

> 1.7 利用 加 权 快 速 合 并 算法 (程序 1.3) 做 练习 1.4。 

> 1.8 利用 带 有 等 分 路 径 压 缩 的 加 权 快 速 合 并 算法 (程序 1.4) 做 练习 1.4。 
1.9 证 明 程 序 1.3 处 理 N 个 对 象 、M 个 连接 所 需 执行 的 机 器 指令 数 的 上 界 。 例 如 ， 你 可 以 假设 C 
语言 的 任何 赋值 语句 总 是 需要 少 于 c 条 指令 ，c 为 某 个 固定 常数 。 . 
1.10 ”如果 连 通 问题 有 10' 个 对 象 、10? 个 输入 ， 试 估计 在 一 台 每 秒 执行 10? 条 指令 的 计算 机 上 ， 
执行 快速 查找 算法 (程序 1.1) 所 需 的 最 少时 间 (以 天 数 计算 )。 假 设 whi1le 循 环 每 次 迭代 至 少 
需要 执行 10 条 指令 。 
1.11 ”如果 连通 问题 有 10' 个 对 象 、10? 个 输入 ， 试 估计 在 一 台 每 秒 执行 10? 条 指令 的 计算 机 上 ， 
执行 加 权 快 速 合并 算法 (程序 1.3) 所 需 的 最 多 时 间 (以 秒 计算 )。 假 设 whi1le 循 环 每 次 迭代 至 
多 需要 执行 100 条 指令 。 
1.12 在 一 棵 由 加 权 快 速 合并 算法 在 最 坏 情 况 下 构造 的 2" 个 节点 的 树 中 ， 试 计算 从 一 个 节点 到 
根 节 点 的 平均 距离 。 

>1.13 不 是 从 9 个 节点 ， 而 是 从 8 个 节点 开始 ， 画 一 棵 像 图 1-10 中 的 树 。 

o1.14 给 出 输入 对 的 一 个 序列 ， 使 加 权 快 速 合并 算法 (程序 1.3) 产生 长 为 4 的 一 条 路 径 。 
e1.15 给 出 输入 对 的 一 个 序列 ， 使 带 有 等 分 路 径 压 缩 的 加 权 快 速 合 并 算法 (程序 1.4) 产生 长 
为 4 的 一 条 路 径 。 
1.16 ”修改 程序 1.3 以 实现 完全 路 径 压 缩 ， 使 访问 的 每 个 节点 指向 新 树 的 根 节点 来 完成 每 次 的 
合并 操作 。 

>1.17 利用 带 有 完全 路 径 压 缩 的 加 权 快 速 -合并 算法 (练习 1.16)， 做 练习 1.4。 

ee 1.18 给 出 输入 对 的 一 个 序列 ， 使 带 有 完全 路 径 压 缩 的 加 权 快 速 合 并 算法 (练习 1.16) 产生 长 
为 4 的 一 条 路 径 。 

co1.19 ”给 出 一 个 例子 说 明 修 改 快速 合并 算法 (程序 1.2) 以 实现 完全 路 径 压 缩 (练习 1.16) 不 
足以 保证 树 中 没有 长 的 路 径 。 

se 1.20 修改 程序 1.3， 不 用 权 值 ， 而 用 树 高 ( 树 中 任 一 节点 到 根 节点 的 最 长 路 径 ) 来 确定 设置 
id[i] = j 还 是 id[j] = i。 进 行 实验 把 这 个 变形 程序 与 程序 1.3 作 一 比较 。 

ee 1.21 证 明 性 质 1.3 对 于 练习 1.20 中 描述 的 算法 成 立 。 

e1.22 修改 程序 1.4， 不 从 标准 输入 读 取 ， 而 随机 产生 0 ~ N 一 1 之 间 的 整数 对 ， 并 在 循环 中 执行 
N 一 1 次 合并 操作 。 试 分 别 在 N = 103、10*、10 和 10s 时 运行 你 的 程序 ， 并 输出 每 个 N 值 所 产生 
的 边 的 个 数 。 

e 1.23 修改 练习 1.22 中 的 程序 ， 绘 出 连接 N 个 数据 项 所 需要 的 边 数 ， 其 中 100 NN< 1000。 

ee 1.24 给 出 连接 和 N 个 对 象 需要 随机 产生 的 边 数 的 近似 公式 ， 它 是 入 的 函数 。 


1.4 展望 
在 1.3 节 中 考虑 的 每 个 算法 似乎 是 对 以 前 版 本 的 一 种 改进 ， 但 是 这 个 过 程 需 要 人 工 修饰 ， 
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因为 我 们 看 见 的 算法 的 改进 是 研究 人 员 经 过 多 年 的 努力 研究 出 来 的 〈 见 第 一 部 分 参考 文献 ) 。 
因为 实现 简单 且 问 题 明 确 ， 因 此 可 以 通过 实验 研究 直接 评价 各 种 算法 。 更 进一步 ， 我 们 还 可 
以 验证 这 些 实验 ， 并 量化 地 比较 这 些 算法 的 性 能 ( 见 第 2 章 )。 并 不 是 本 书 范围 中 的 所 有 问题 
都 可 以 像 这 个 例子 这 样 改 进 ， 我 们 必定 会 遇见 一 些 难以 比较 的 复杂 算法 ， 还 会 遇见 难以 求解 
的 数学 问题 。 我 们 努力 对 所 用 算法 作出 客观 、 科 学 的 评判 ， 同 时 在 实际 应 用 中 的 数据 或 随机 
测试 数据 上 运行 算法 ， 通 过 总 结实 现 性 质 获 得 经 验 。 

这 个 过 程 是 本 书 中 设计 基本 问题 的 各 种 算法 的 一 种 典型 方法 。 只 要 可 能 ， 我 们 在 设计 其 
他 算法 时 都 会 沿用 1.2 节 合并 一 查找 算法 的 基本 步 又 ， 主 要 步骤 如 下 ， 

* 确定 完整 、 明 确 的 问题 陈述 ， 包 括 确定 问题 固有 的 基本 抽象 操作 。 

“ 仔细 设计 一 个 简单 算法 的 简明 实现 。 

“通过 逐步 求 精 的 过 程 开 发 改进 后 的 实现 ， 经 过 实验 分 析 、 数 学 分 析 或 两 者 共同 验证 改进 

思想 的 效率 。 

“ 找 出 数据 结构 或 者 算法 操作 的 高 级 抽象 表示 ， 能 够 使 改进 版 本 的 设计 高 效 。 

“可 能 时 尽量 保证 最 坏 情 况 下 的 性 能 ， 但 实际 数据 可 用 时 接受 好 的 性 能 。 

对 于 我 们 在 1.2 节 看 到 的 那些 实际 问题 ， 进 行 显著 的 性 能 改进 的 潜在 性 使 得 算法 设计 领域 成 
为 具有 吸引 力 的 研究 领域 ， 没 有 几 种 其 他 设计 方法 能 获得 数 百 万 倍 、 数 亿 倍 其 至 更 大 的 性 能 
提高 。 

更 重要 的 是 ， 随 着 计算 能 力 和 应 用 问题 规模 的 增加 ， 快 速算 法 和 慢 速 算法 之 间 的 差距 越 
来 越 大 。 一 台新 的 计算 机 可 能 要 快 10 倍 ， 其 处 理 数据 的 能 力 是 原 计 算 机 的 10 倍 。 但 如 果 我 们 
使 用 一 个 二 次 算法 如 快速 查找 算法 在 新 的 计算 机 运行 ， 则 它 的 运行 时 间 会 是 在 旧 机 器 上 运行 
原 算 法 所 需 时 间 的 10 倍 ! 这 名 话 乍 看 似乎 矛盾 ， 但 容易 用 简单 等 式 (10N)” /10 = 10M 验 证 。 在 
第 2 章 中 会 看 到 这 一 点 。 随 着 计算 能 力 的 提高 ， 我 们 可 以 求解 更 大 的 问题 ， 寻 求 高 效 算法 的 重 
要 性 也 更 为 重视 。 

开发 一 个 高 效 算 靶 是 一 项 满足 智力 且 有 实际 回报 的 话 动 。 正 如 在 连通 问题 中 所 阐明 的 ， 
一 个 简单 的 问题 不 仅 可 以 研究 许多 既 有 用 又 有 趣 的 算法 ， 而 且 也 有 复杂 和 难以 理解 的 算法 。 
我 们 会 遇 到 许多 在 实际 应 用 中 研究 了 若干 年 的 具有 创造 力 的 算法 。 随 着 科学 计算 和 商业 问题 
的 应 用 领域 不 断 扩 大 ， 能 用 高 效 算 法 解决 已 知 问题 和 研究 新 间 题 的 高 效 解法 变 得 越 来 越 重要 。 
练习 
1.25 ”假设 一 台新 计算 机 的 运行 速度 是 一 台 旧 计算 机 运行 速度 的 10 倍 ， 利 用 加 权 快 速 合并 算 
法 处 理 10 倍 于 原 问题 连接 数 的 数据 。 新 计算 机 完成 这 项 新 工作 要 比 旧 计 算 机 完成 原 工 作 慢 多 
少时 间 ? 

1.26 对 于 要 求 N 条 指令 的 算法 ， 回 答 练习 1.25。 


1.5 主题 概述 


本 节 简 单 介 绍 本 书 的 各 个 主要 部 分 ， 给 出 包含 的 特定 专题 ， 并 指出 材料 的 一 般 目标 。 主 
题 的 设置 尽 可 能 涵盖 更 多 的 基本 算法 。 所 涉及 的 一 些 领域 是 计算 机 科学 的 核心 领域 ， 我 们 会 
深入 研究 ， 学 习 那 些 应 用 广泛 的 基本 算法 。 还 有 一 些 算法 取 自 计算 机 科学 的 高 级 研究 领域 和 
相关 的 一 些 领域 ， 比 如 说 ， 数 值 分 析 和 运筹 学 。 在 这 些 情况 下 ， 我 们 通过 考查 基本 方法 引入 
相关 领域 。 

本 卷 包含 书 的 前 四 部 分 ， 涵 盖 了 使 用 最 广泛 的 数据 结构 和 算法 ， 以 及 一 些 支持 大 量 重要 
基础 算法 的 对 象 集 的 一 级 抽象 。 我 们 讨论 的 算法 是 数 十 年 来 研究 和 发 展 的 结果 ， 它 们 在 不 断 
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增长 的 计算 应 用 中 起 着 非常 重要 的 作用 。 

基础 知识 (第 一 部 分 )。 书 中 这 部 分 内 容 论 述 了 实现 、 分 析 和 比较 算法 所 用 的 基本 原理 和 
方法 学 。 第 1 章 讨 论 研究 算法 设计 和 分 析 的 动机 。 第 2 章 讨论 获得 算法 性 能 的 量化 信息 的 一 些 
基本 方法 。 

数据 结构 (第 二 部 分 )。 数 据 结构 与 算法 紧密 结合 在 一 起 。 我 们 会 研究 一 种 书 中 所 用 的 透 
彻 的 数据 表示 方法 。 第 3 章 从 具体 的 基本 数据 结构 开始 ， 包 括 数组 、 链 表 和 字符 串 ， 然 后 在 第 
5 章 讨论 递归 程序 和 数据 结构 ， 特 别 是 树 以 及 树 操 作 的 算法 。 第 4 章 讨 论 基本 抽象 数据 类 型 
(ADT)， 包 括 栈 和 队列 ， 以 及 如 何 用 基本 数据 结构 实现 它们 。 

排序 〈 第 三 部 分 ) 。 重 排 文件 使 其 有 序 具 有 根本 的 重要 性 。 我 们 深入 地 讨论 许多 算法 ， 包 
括 希 尔 排序 、 快 速 排序 、 归 并 排序 、 堆 排序 和 基数 排序 。 我 们 将 会 遇 到 几 个 相关 问题 的 算法 ， 
它们 是 优先 队列 、 选 择 和 归并 ， 其 中 许多 算法 是 本 书 稍 候 讨 论 的 其 他 算法 应 用 的 基础 。 

搜索 (第 四 部 分 )。 从 大 量 数据 项 的 集合 中 查找 特定 的 数据 项 也 很 重要 。 我 们 讨论 利用 树 
和 数字 键 转换 进行 查找 的 基本 方法 和 高 级 方法 ， 包 括 二 又 搜索 树 、 平 衡 树 、 散 列 、 数 字 搜 索 
树 和 线索 ， 以 及 适合 查找 大 规模 文件 的 方法 。 我 们 论述 了 这 些 方 法 之 间 的 关系 ， 比 较 了 对 应 
于 排序 算法 的 性 能 统计 量 。 

第 五 部 分 至 第 八 部 分 在 另 一 卷 中 ， 包 含 了 这 里 描述 的 一 些 算法 的 高 级 应 用 ,涉及 大 量 重 
要 应 用 领域 的 二 级 抽象 规范 ， 更 深入 研究 算法 设计 和 分 析 技 术 。 其 中 涉及 的 许多 问题 是 当前 
研究 的 主题 。 

字符 串 处 理 算法 (第 五 部 分 )。 这 一 部 分 包括 处 理 (长 ) 字符 序列 的 一 些 方法 。 字 符 串 搜 
索 用 到 模式 匹配 算法 ， 而 模式 匹配 又 需要 解析 字符 申 。 还 讨论 了 文件 压缩 技术 。 通 过 处 理 一 
些 重要 的 基本 问题 引入 高 级 主题 。 

几何 算法 〈 第 六 部 分 )。 几 何 算法 是 求解 与 点 、 线 〈 以 及 其 他 简单 几何 对 象 ) 有 关 问 题 的 
方法 ， 仅 在 最 近 时 间 得 到 应 用 。 我 们 讨论 找 点 集 的 凸 包 、 几 何 对 象 的 交集 、 求 解 最 近 点 问题 
以 及 多 维 搜索 的 算法 。 其 中 许多 算法 很 好 地 补充 了 基本 的 排序 和 搜索 方法 。 

图 算法 (第 七 部 分 )。 图 算法 可 用 于 求解 各 种 难 解 的 重要 问题 。 这 一 部 分 研究 了 图 中 搜索 
的 一 般 策 略 ， 并 把 这 些 策略 应 用 到 基本 的 连通 问题 ， 包 括 最 短路 径 问 题 、 最 小 生成 树 问题 、 
网 络 流 和 匹配 。 统 一 的 算法 框架 表明 这 些 算法 基于 同一 过 程 ， 而 且 这 个 过 程 是 建立 在 优先 队 
列 ADT 基 础 上 的 。 . 

高 级 主题 (第 八 部 分 )。 这 部 分 讨论 的 内 容 涉及 几 个 其 他 高 级 领域 中 的 研究 。 我 们 从 算法 
设计 与 分 析 的 主要 方法 开始 ， 包 括 分 治 靶 、 动 态 规划 、 随 机 化 方法 和 平 摊 分 析 。 对 于 线性 规 
划 、 快 速 侍 立 叶 变 换 、NP 一 完全 性 以 及 其 他 高 级 主题 ， 仅 从 本 书 中 遇见 的 基本 问题 引出 的 高 
级 研究 领域 做 一 介绍 。 

究 算 法 是 有 趣 的 ， 因 为 它 是 一 个 具有 丰富 传统 〈 几 个 算法 数 千 年 前 已 经 发 现 ) 的 新 的 
领域 (这 里 学 习 的 所 有 算法 几乎 都 是 在 近 50 年 产生 的 ， 其 中 一 些 是 最 近 发 现 的 ) 。 新 的 算法 不 
断 涌 现 ， 但 没有 儿 个 算法 被 完全 地 理解 。 本 书 不 仅 讨论 一 些 复杂 、 难 解 和 困难 的 算法 ， 而 且 
讨论 优雅 、 简 单 和 容易 的 算法 。 我 们 的 挑战 是 在 各 种 潜在 应 用 中 理解 前 者 ， 欣赏 后 者 。 这 样 
做 的 过 程 ， 将 会 探索 大 量 有 用 的 工具 ， 并 开发 算法 学 思维 的 框架 ， 它 们 将 为 面临 的 计算 挑战 
提供 帮助 。 


第 2 章 算法 分 析 的 原理 


要 把 算法 高 效应 用 到 实际 问题 中 ， 分 析 是 充分 理解 算法 的 关键 。 尽 管 不 能 对 运行 的 每 个 
程序 进行 广泛 的 实验 和 深入 的 数学 分 析 ， 我 们 还 是 能 够 在 一 个 基本 框架 内 进行 实验 测试 和 近 
似 分 析 ， 这 样 可 以 帮助 我 们 了 解 关于 算法 性 能 特征 的 重要 事实 ， 从 而 对 算法 进行 比较 ， 才 可 
以 把 它们 应 用 到 实际 问题 中 。 

精确 地 用 数学 分 析 的 方法 描述 复杂 算法 的 性 能 的 这 个 想法 ， 乍 看 起 来 有 点 使 人 女 惧 ， 并 
且 经 常 需要 查阅 一 些 有 详细 数学 研究 结果 的 研究 文献 。 尽 管 本 书目 的 不 是 包含 一 些 分 析 方 法 ， 
甚至 总 结 这 些 结果 ， 但 重要 的 是 一 开始 就 意识 到 我 们 是 在 坚实 的 数学 基础 上 比较 不 同 的 算法 。 
此 外 ， 通 过 运用 相对 少量 的 基本 技术 ， 就 能 获得 许多 最 重要 算法 的 大 量 详细 信息 。 书 中 强调 
基本 分 析 结 果 和 分 析 方 法 ， 尤 其 是 当 这 样 的 理解 有 助 于 理解 基本 算法 的 内 在 工作 机 理 时 。 本 
章 的 主要 目标 是 为 高 效 使 用 算法 提供 所 需 的 上 下 文 和 工具 。 

第 1 章 给 出 的 例子 提供 了 说 明 算 法 分 析 基 本 概念 的 上 下 文 ， 因 而 我 们 会 经 常 回 到 合并 一 查 
找 算法 讨论 某 个 具体 的 概念 。 我 们 在 2.6 节 还 将 讨论 一 些 新 的 例子 。 

在 设计 和 实现 算法 的 过 程 中 分 析 起 着 一 定 的 作用 。 首 先 ， 正 如 看 到 的 那样 ， 选 择 合适 的 
算法 会 节省 数 千 乃至 数 百 万 倍 的 时 间 。 随 着 讨论 更 多 的 高 效 算 法 ， 我 们 发 现在 这 些 算法 中 进 
行 选择 更 具有 挑战 性 ， 因 而 需要 更 仔细 研究 算法 的 性 质 。 在 寻求 最 佳 〈 某 种 精确 技术 意义 下 ) 
算法 中 ， 我 们 寻求 既 实 用 又 在 理论 上 具有 挑战 性 的 算法 。 

完整 涵盖 算法 分 析 的 所 有 方法 是 本 书 的 主题 ( 见 第 一 部 分 参考 文献 )， 但 这 里 值得 考虑 的 
是 基本 方法 ， 因 而 我 们 可 以 : 

“说明 这 个 过 程 。 

“在 某 个 地 方 描述 所 用 的 数学 约定 。 

“ 为 讨论 高 级 技术 问题 提供 基础 。 

“ 当 比 较 算 法 时 ， 对 得 出 的 科学 基本 结论 进行 正确 评价 。 

更 重要 的 是 ， 算 法 及 其 分 析 常 常 是 相互 纠缠 在 一 起 的 。 在 本 书 里 ， 我 们 并 不 钻研 艰深 的 数学 
知识 ， 但 我 们 需要 足够 的 数学 基础 以 便 能 够 理解 算法 ， 并 能 高 效 运用 它们 。 


2.1 实现 和 经 验 分 析 


通过 进行 层次 抽象 设计 和 研制 算法 ， 这 有 助 于 理解 想 要 求解 的 计算 问题 的 本 质 。 在 理论 
研究 中 ， 尽 管 这 个 过 程 有 价值 ， 但 有 时 会 使 我 们 偏离 所 讨论 的 现实 世界 中 的 问题 。 因 此 ， 在 
这 本 书 里 ， 我 们 立足 基础 ， 用 C 程 序 设计 语言 表示 所 讨论 的 所 有 算法 。 有 时 这 种 方法 可 能 使 
算法 及 其 实现 之 间 产 生 混 淆 ， 但 算法 能 够 工作 ， 并 能 从 具体 实现 中 有 所 收获 ， 这 是 一 个 小 的 
代价 。 

实际 上 ， 用 实际 程序 设计 语言 经 过 仔细 构造 的 程序 可 以 提供 表示 算法 的 高 效 手段 。 在 这 
本 书 里 ， 我 们 讨论 大 量 在 C 实 现 摘 述 上 既 简 明 又 精确 的 重要 且 高 效 的 算法 。 用 英语 描述 算法 或 
者 用 高 级 抽象 表示 算法 都 太 模 糊 ， 不 完整 ， 实 际 实现 迫使 我 们 找到 经 济 的 表示 方式 ， 从 而 如 
免 淹 没 在 细节 中 。 
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我 们 用 C 语 言 表示 算法 ,但 这 本 书 是 论述 算法 的 ， 不 是 论述 程序 设计 语言 的 。 当 然 ， 我 们 
讨论 许多 重要 任务 的 C 实 现 ， 并 且 当 用 C 语 言 表示 任务 特别 便利 或 高 效 时 ， 我 们 就 会 利用 它 。 
但 我 们 所 做 的 大 量 实现 决策 已 经 考虑 到 现代 程序 设计 环境 。 把 第 1 章 中 的 程序 以 及 本 书 中 大 多 
数 其 他 程序 转换 成 另 一 种 程序 设计 语言 是 一 件 轻而易举 的 事情 。 有 了 时， 我 们 还 关注 某 种 程序 
设计 语言 提供 的 适合 某 个 任务 的 特殊 高 效 机 制 。 我 们 的 目标 是 利用 C 语 言 作为 工具 表达 所 讨论 
的 算法 ， 而 不 是 详细 论述 C 语 言 的 实现 问题 。 

如 果 一 个 算法 是 作为 一 个 大 系统 的 一 部 分 来 实现 ， 我 们 使 用 抽象 数据 类 型 或 类 似 的 机 制 ， 
使 得 当 确 定 系统 的 某 个 部 分 值得 关注 时 ， 可 以 修改 算法 或 进行 实现 。 然 而 ， 从 一 开始 就 需要 
理解 每 个 算法 的 性 能 特性 ， 因 为 系统 的 设计 要 求 可 能 对 算法 的 性 能 有 着 重要 的 影响 。 一 定 要 
谨慎 做 出 这 样 的 初始 设计 决策 ， 因 为 最 后 常常 会 发 现 整个 系统 的 性 能 取决 于 某 个 基本 算法 的 
性 能 ， 就 像 在 本 书 中 所 讨论 的 一 些 问题 。 

本 书 中 算法 的 实现 已 经 高 效应 用 于 大 程序 、 操 作 系 统 和 应 用 系统 中 。 我 们 的 目的 是 描述 
算法 ， 通 过 对 给 出 实现 的 实验 了 解 算法 的 动态 性 质 。 对 于 某 些 应 用 ， 实 现 可 能 相当 有 用 ， 就 
像 给 出 的 一 样 ， 而 对 其 他 一 些 应 用 ， 需 要 做 更 多 工作 实现 才能 有 用 。 例 如 ， 当 构建 真正 的 系 
统 时 可 能 利用 更 保守 的 程序 设计 风格 。 要 对 错误 进行 检查 并 报告 ， 实 现 的 程序 修改 起 来 要 容 
易 ， 其 他 程序 员 可 以 快速 地 阅读 和 理解 ， 与 系统 其 他 部 分 的 接口 友好 ， 并且 能 够 方便 地 移植 
到 其 他 环境 中 。 

尽管 有 这 样 多 的 要 求 ， 但 在 分 析 算法 时 我 们 还 是 主要 考虑 算法 的 性 能 ， 并 关注 算法 的 一 
些 主要 性 能 特征 。 我 们 假设 总 是 对 于 具有 更 好 性 能 的 算法 感 兴趣 ， 尤 其 算法 是 更 简单 的 时 候 。 

不 论 是 我 们 要 去 解决 一 个 其 他 方法 不 能 解决 的 大 规模 的 问题 ， 还 是 为 系统 的 关键 部 分 提 
供 一 种 高 效 的 实现 ， 为 了 高 效 地 利用 算法 ， 都 需要 理解 算法 的 性 能 特征 。 获 得 这 样 的 理解 是 
算法 分 析 的 目标 。 

理解 算法 性 能 的 第 一 步 是 进行 经 验 分 析 。 给 定 解决 同一 问题 的 两 个 算法 ， 方 法 没有 神秘 
的 ， 只 要 运行 它们 看 看 哪 一 个 的 运行 时 间 更 长 ! 这 个 想法 可 能 太 简 单 ， 不 值 一 提 ， 但 在 算法 
比较 研究 中 它 是 一 种 时 常 省 略 的 方法 。 一 个 算法 比 另 一 个 算法 快 10 倍 这 一 事实 很 难 不 引起 注 
意 ， 人 们 一 定 会 发 现 一 个 算法 等 待 了 3 秒 时 间 完成 ， 而 另 一 个 算法 等 待 了 30 秒 时 间 完 成 。 但 在 
数学 分 析 中 很 容易 忽略 掉 这 个 小 的 常量 开销 因子 。 当 我 们 监测 某 个 典型 输入 下 的 实现 性 能 时 ， 
得 到 的 性 能 结果 不 仅 直 接 指明 了 效率 ， 而 且 为 比较 算法 提供 了 所 需要 的 信息 ， 并 验证 了 可 能 
应 用 的 数学 分 析 的 结果 ( 见 表 1-1) 。 而 当 经 验 分 析 需 要 消耗 大 量 时 间 时 ， 就 要 用 数学 分 析 的 
方法 。 如 果 等 待 程序 运行 完成 需要 一 小 时 黄 至 是 一 天 ， 才 发 现 它 运行 很 慢 ， 那 么 这 不 是 一 种 
高 效 的 方法 。 尤 其 是 在 直接 分 析 可 以 得 出 同样 信息 的 时 候 。 

经 验 分 析 中 面临 的 第 一 个 挑战 是 开发 一 个 正确 、 完 整 的 算法 实现 。 对 于 某 些 复杂 算法 ， 
这 种 挑战 可 能 会 提出 一 个 大 的 障碍 。 因 此 ， 我 们 希望 在 投入 更 大 精力 实现 该 算法 之 前 ， 对 类 
似 的 程序 进行 数学 分 析 或 者 经 验 分 析 ， 以 得 到 程序 可 能 有 的 效率 。 

经 验 分 析 中 面临 的 第 二 个 挑战 是 确定 输入 数据 的 特性 ， 以 及 对 进行 的 实验 有 直接 影响 的 
其 他 因素 。 典 型 地 ， 我 们 会 有 三 种 基本 选择 : 利用 实际 数据 ， 随 机 数据 或 伪 数 据 。 实 际 数据 
可 以 测试 所 用 程序 的 真正 开销 ， 随 机 数据 确保 实验 测试 的 是 算法 ， 而 不 是 测试 数据 ， 而 伪 数 
据 确保 程序 可 以 处 理 可 能 的 任何 输入 。 例 如 ， 我 们 用 Moby Dick 名 子 、 随 机 产生 的 整数 和 大 
量 相同 的 数 作 为 输入 测试 排序 算法 。 在 分 析 算 法 时 ， 会 出现 确 定 哪 种 输入 数据 去 比较 算法 的 
问题 。 

当 用 经 验方 法 比较 算法 在 不 同 机 器 、 编 译 器 或 系统 上 的 各 种 实现 ,或 者 比较 具有 病态 输 
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入 的 大 规模 程序 时 ， 容 易 产生 错误 。 经 验 性 地 比较 程序 的 主要 危险 是 一 种 代码 实现 会 比 另 一 
种 代码 实现 更 好 。 提 出 新 算法 的 发 明 者 可 能 会 关注 实现 的 每 个 细节 ， 而 不 会 把 注意 力 更 多 地 
放 在 一 个 经 典 可 竞争 算法 的 实现 上 。 为 了 确信 一 个 可 比较 算法 的 实验 结果 的 精度 ， 我 们 必须 
关注 每 个 实现 。 

正如 在 第 1 章 中 所 看 见 的 那样 ， 本 书 中 常用 的 一 种 方法 是 对 同一 问题 的 其 他 算法 作出 相对 
细微 的 改变 从 而 引出 算法 ,这样 做 才能 进行 有 效 的 比较 研究 。 更 一 般 地 ， 我 们 试图 明确 一 些 
重要 的 抽象 操作 ， 并 基于 算法 所 用 的 这 类 操作 进行 比较 。 例 如 ， 在 表 1-1 中 的 比较 性 的 实验 结 
果 是 健壮 的 ， 它 们 不 依赖 于 编程 语言 和 环境 ， 因 为 所 涉及 的 程序 相似 并 利用 了 相同 的 基本 操 
作 集 合 。 对 于 某 种 程序 设计 环境 ， 我 们 可 以 容易 地 把 这 些 数据 与 实际 运行 时 间 对 应 起 来 。 更 
经 常 地 ， 我 们 只 想 知 道 两 个 程序 中 的 哪 一 个 可 能 更 快 一 些 ,或 者 想 知道 在 什么 程度 上 的 改变 
可 以 改进 某 个 程序 的 时 间或 空间 的 开销 。 

选择 某 个 算法 解决 某 个 给 定 问 题 不 是 容易 的 事情 。 也 许 在 选择 算法 时 最 常 犯 的 错误 是 忽 
略 了 算法 的 性 能 特征 。 快 速算 法 常常 比 蛮 力 算法 要 复杂 ， 实 现 者 常常 宁愿 接受 一 个 慢 速 算法 ， 
也 不 愿 处 理 更 复杂 的 算法 。 然 而 ， 正 如 我 们 在 合并 一 查找 算法 中 所 看 到 的 那样 ， 只 有 几 行 代 
码 有 时 却 可 以 得 到 大 的 收获 。 有 相当 多 的 系统 用 户 损失 了 大 量 时 间 ， 是 因为 他 们 使 用 了 一 个 
二 次 时 间 的 算法 ， 而 没有 使 用 更 复杂 且 运 行 时 间 为 其 几 分 之 一 的 N log N 算 法 。 当 我 们 处 理 大 
规模 问题 时 ， 我 们 毫 无 选择 ， 只 能 寻求 更 好 的 算 靶 。 正 如 我 们 将 看 到 的 那样 。 

也 许 选 择 算法 时 常 犯 的 第 二 个 错误 是 过 多 地 关注 算法 的 性 能 特征 。 如 果 程 序 只 需 几 微 秒 ， 
那么 把 程序 的 运行 时 间 改 进 10 倍 是 不 值得 的 。 即 使 一 个 程序 需要 几 分 钟 ， 也 不 值得 费时 费力 
使 它 的 运行 速度 提高 10 倍 ， 尤 其 是 在 不 需要 经 常 使 用 这 个 程序 时 。 实 现 和 调试 一 个 改进 算法 
所 需 的 总 时 间 可 能 远 远 大 于 只 是 运行 一 个 稍微 慢 速 的 算 靶 所 花费 的 时 间 。 我 们 也 可 能 让 计算 
机 做 这 项 工作 。 更 坏 的 是 ， 我 们 可 能 花费 相当 多 的 时 间 和 精力 实现 这 个 改进 的 想法 ， 实 际 上 
并 没有 达到 预期 的 结果 。 

我 们 不 能 运行 一 个 还 未 写 出 来 的 程序 ， 但 我 们 可 以 分 析 程 序 的 性 质 ， 并 估计 所 提出 改进 
的 效果 。 不 是 所 有 推测 的 改进 都 能 获得 性 能 收益 ， 我 们 需要 理解 实现 每 一 步 所 带 来 的 好 处 。 
此 外 ， 可 以 在 实现 中 包含 参数 ， 并 利用 分 析 结 果 设 置 参 数 。 更 重要 的 是 ， 通 过 理解 程序 的 基 
本 性 质 以 及 程序 所 用 资源 的 基本 特性 ， 我 们 就 有 能 力 在 尚未 建立 的 计算 机 上 评价 它们 的 效 
率 ， 并 把 它们 与 尚未 设计 的 新 算法 进行 比较 。 在 2.2 节 中 ， 我 们 将 概述 评价 算 靶 性 能 的 基本 
方法 。 
练习 
2.1 用 另 一 种 程序 设计 语言 改写 第 1 章 中 的 程序 ， 并 用 你 的 实现 回答 练习 1.22。 

2.2 ”从 1 数 到 1 000 000 000 需 要 多 长 时 间 (不 考虑 溢出 ) ? 对 于 N = 10，100 和 1000， 记 录 在 
你 的 运行 环境 中 分 别 运行 以 下 程序 所 花费 的 时 间 。 如 果 你 的 编译 器 有 优化 特性 ， 并 假定 可 使 
程序 更 高 效 。 请 检查 是 否 对 程序 作 了 优化 。 

int i, j, k, count = 0; 

for (i = 0; i < N; i++) 

for (j = 0; j < N; j++) 


for (k = 0; Kk < N; k++) 
Count++; 


2.2 算法 分 析 
在 这 一 节 里 ， 我 们 概述 数学 分 析 在 比较 算法 性 能 的 过 程 中 所 起 作用 的 框架 ， 并 为 能 够 把 
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基本 的 分 析 结果 应 用 于 书 中 讨论 的 基本 算法 黄 定 基础 。 我 们 将 讨论 一 些 用 于 算法 分 析 的 基本 
数学 工具 ， 以 便 学 习 对 基本 算法 的 经 典 分 析 方 法 ， 以 及 利用 研究 文献 中 的 结果 帮助 我 们 理解 
算法 的 性 能 特征 。 

我 们 对 算法 进行 数学 分 析 的 目的 是 : 

“比较 同一 任务 的 不 同 算法 。 

。 预 测算 法 在 新 环境 下 的 性 能 。 

* 设置 算法 中 的 参数 值 。 

我 们 将 在 书 中 看 到 许多 这 方面 的 例子 。 对 于 这 些 任务 而 言 经 验 分 析 就 足够 了 ， 但 数学 分 
析 能 提供 更 多 信息 〈 并 且 代 价 较 小 ) ， 我 们 会 看 到 这 一 点 。 

算法 的 分 析 确 实 具 有 挑战 性 。 我 们 对 书 中 的 一 些 算法 已 经 有 透彻 的 理解 ， 可 以 利用 其 精 
确 的 数学 公式 来 预测 实际 情况 下 的 运行 时 间 。 人 们 通过 仔细 研究 程序 获得 这 样 的 公式 ， 从 而 
根据 基本 的 数学 量 找 出 运行 时 间 ， 然 后 对 这 些 数学 量 进行 数学 分 析 。 另 一 方面 ， 本 书 中 其 他 
算法 的 性 能 性 质 没 有 完全 被 理解 ， 也 许 是 由 于 对 它们 的 分 析 可 能 会 导致 不 可 解 的 数学 问题 ， 
或 者 也 许 是 已 知 的 实现 太 复杂 ， 不 适合 于 详细 分 析 。 或 者 (最 可 能 ) 也 许 是 不 能 准确 地 表征 
它们 遇见 的 输入 的 类 型 。 

在 精确 的 分 析 中 ， 有 几 个 重要 因素 是 程序 员 所 不 能 控制 的 。 首 先 ， 当 把 C 程 序 翻 译 成 某 个 
计算 机 上 的 机 器 代码 时 ， 精 确 知道 执行 一 条 C 语 句 到底 花 费 多 长 时 间 是 一 件 困难 的 任务 (尤其 
是 在 资源 共享 的 环境 中 ， 即 使 是 在 两 个 不 同时 间 运 行 同 一 程序 也 可 能 有 不 同 的 性 能 特征 )。 第 
二 ， 许 多 程序 对 输入 数据 十 分 敏感 ， 因 而 性 能 可 能 大 大 地 受到 输入 数据 的 影响 。 第 三 ， 许 多 
感 兴趣 的 问题 并 没有 很 好 地 被 理解 ， 某 个 数学 结果 可 能 不 能 用 。 最 后 ， 两 个 程序 可 能 根本 就 
不 能 比较 : 一 个 程序 可 能 运行 在 某 种 输入 上 才 会 更 高 效 ， 而 另 一 个 程序 在 其 他 条 件 下 才能 高 
效 运行 。 

尽管 有 这 么 多 的 不 可 控制 的 因素 ， 我 们 依然 可 能 精确 地 预测 某 个 程序 的 运行 时 间 ， 或 
者 在 某 种 环境 下 ， 知 道 一 个 程序 会 比 另 一 个 程序 性 能 更 好 。 此 外 ， 我 们 可 以 利用 相对 少 的 
一 组 数学 工具 获得 这 样 的 知识 。 发 现 关于 算法 性 能 的 尽 可 能 多 的 信息 是 算法 分 析 的 任务 。 为 
了 特定 应 用 ， 在 选择 算法 时 ， 运 用 这 些 信 息 是 程序 员 的 任务 。 在 这 一 节 以 及 后 续 的 几 节 中 ， 
我 们 的 分 析 集 中 在 理想 的 情况 。 为 了 充分 利用 最 好 的 算 靶 ， 有 时 我 们 需要 能 够 路 人 这 个 理 
想 的 世界 。 

算法 分 析 的 第 一 步 是 明确 算法 基于 的 抽象 操作 ， 从 而 从 实现 中 把 分 析 分 离 出 来 。 例 如 ， 
我 们 把 在 计算 机 上 执行 代码 段 1=a[Li] 所 需要 的 时 间 分 析 分 离 出 来 ， 变 成 计算 在 合并 一 查找 算 
法 的 一 个 实现 中 该 代码 段 执行 了 多 少 次 。 我 们 需要 这 两 个 要 素 去 决定 程序 在 特定 计算 机 上 的 
运行 时 间 。 前 者 由 计算 机 的 性 质 决定 ， 后 者 由 算法 的 性 质 决定 。 这 种 分 离 使 我 们 可 以 不 依赖 
于 特定 实现 或 者 特定 计算 机 来 比较 算法 。 

尽管 原则 上 一 个 算法 中 涉及 的 抽象 操作 数 可 能 很 多 ,但 是 算法 的 性 能 典型 地 依赖 于 几 
个 量 ， 而 且 可 以 找到 用 于 分 析 的 最 重要 的 那些 量 。 确 定 这 些 量 的 一 种 方法 是 对 于 某 些 典型 
运行 ， 利 用 剖析 机 制 〈 许 多 C 实 现 中 支持 的 一 种 机 制 ， 可 以 统计 指令 的 执行 频率 ) 决定 程序 
中 最 党 执行 的 部 分 。 或 者 ， 像 1.3 节 中 的 合并 一 查找 算法 ， 我 们 的 实现 可 能 就 是 建立 在 几 个 
抽象 操作 上 的 。 无 论 哪 一 种 情况 ， 分 析 都 是 确定 几 个 基本 操作 执行 的 次 数 。 我 们 的 常用 方 
法 是 寻找 这 些 量 的 一 个 近似 估计 ， 确 保 必要 时 能 够 对 重要 程序 进行 更 完整 的 分 析 。 此 外 ， 
正如 将 要 看 到 的 那样 ， 我 们 可 以 经 常 把 近似 分 析 结 果 与 经 验 分 析 结 合 ， 用 来 精确 地 预测 算 
法 的 性 能 。 
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我 们 还 必须 研究 数据 ， 为 算法 的 输入 建立 模型 。 更 经 常 地 ， 分 析 时 会 考虑 以 下 两 种 方法 
之 一 : 一 是 假设 输入 是 随机 的 ， 并 研究 程序 的 平均 情况 (average-case) 下 的 性 能 ， 二 是 寻求 
伪 输 入 ， 并 研究 程序 的 最 坏 情 况 (worst-case) 下 的 性 能 。 表 征 随机 输入 的 过 程 对 于 许多 算法 
是 困难 的 ， 但 对 于 其 他 许多 算法 却 是 容易 的 ， 可 以 导致 提供 有 用 信息 的 分 析 结 果 。 平 均 情况 
可 能 是 数学 的 一 种 理想 状态 ， 并 不 代表 程序 所 使 用 的 数据 。 最 坏 情 况 可 能 是 构造 出 来 的 异常 
情况 ， 可 能 永远 不 会 出 现在 实际 中 。 但 是 这 些 分 析 将 为 通常 情况 下 的 性 能 表现 提供 有 用 信息 。 
例如 ， 我 们 可 以 比较 分 析 结 果 与 实验 结果 ( 见 2.1 节 )。 如 果 两 者 一 致 ， 我 们 就 会 增加 对 两 者 
的 信心 ， 如 果 不 一 致 ， 就 要 通过 研究 它们 的 差别 加 深 对 算法 和 模型 的 理解 。 

在 以 下 三 节 中 ， 我 们 简略 概述 将 在 本 书 中 用 到 的 数学 工具 。 这 部 分 不 在 本 书 的 主要 内 容 
之 列 ， 如 果 读 者 具有 较 好 的 数学 基础 ， 或 者 对 算法 性 能 的 数学 声明 不 感 兴趣 ， 可 以 跳 过 2.6 节 ， 
在 以 后 需要 的 时 候 ， 再 回头 查阅 它们 。 然 而 ， 我 们 讨论 的 数学 基础 一 般 较 容易 理解 ， 这 些 工 
具 与 算法 设计 的 核心 问题 联系 紧密 ， 是 任何 一 个 想 要 高 效 利用 计算 机 的 人 所 不 能 忽略 的 。 

首先 2.3 节 讨论 了 常用 于 描述 算法 性 能 特征 的 数学 函数 。 接 着 在 2.4 节 ， 讨 论 了 大 O 符 号 
(O-notation)， 以 及 “与 ……. 成 正比 ”(is proportional to) 的 概念 。 这 些 概念 允许 我 们 在 进行 
数学 分 析 时 可 以 忽略 一 些 细节 。 然 后 ， 在 2.5 节 讨论 递归 关系 (recurrence relation) ， 它 是 用 于 
捕获 数学 方程 中 算法 的 性 能 特征 的 基本 分 析 手 段 。 概 述 之 后 ， 在 2.6 节 我 们 会 给 出 用 基本 工具 
分 析 特 定 算法 的 一 个 例子 。 
练习 
“2.3 用 形 如 co + cIN + czM + csV 的 表达 式 精确 地 描述 练习 2.2 中 程序 的 运行 时 间 。 对 于 N = 10， 
100 和 1000， 比 较 该 表达 式 预 测 的 时 间 与 实际 执行 时 间 。 

。2.4 用 一 个 表达 式 精确 地 描述 程序 1.1 的 运行 时 间 ， 它 是 M 和 NN 的 函数 。 


2.3 琐 数 的 增长 


大 多 数 算法 的 主要 参数 是 VY， 它 对 算法 的 运行 时 间 影 响 最 大 。 参 数 N 可 以 是 多 项 式 的 度 、 
待 排序 或 查找 的 文件 大 小 、 文 本 字符 串 中 的 字符 个 数 ， 或 者 是 对 所 考虑 问题 的 规模 的 其 他 抽 
象 度量 ， 一 般 来 说 它 与 所 处 理 的 数据 集合 的 规模 成 正比 。 当 这 样 的 参数 多 于 一 个 时 (例如 ， 
1.3 节 讨论 的 合并 一 查找 算法 中 有 两 个 参数 M 和 NN) ， 通 常 我 们 把 其 中 一 个 参数 表示 为 另 一 个 参 
数 的 函数 ， 或 者 一 次 考虑 一 个 参数 (把 另 一 个 参数 固定 为 常量 ) ， 把 分 析 归 约 到 一 个 参数 上 ， 
从 而 不 失 一 般 性 只 考虑 一 个 参数 。 目 标 是 利用 尽 可 能 简单 的 数学 公式 ， 把 程序 对 资源 的 要 求 
(常常 为 运行 时 间 ) 表示 为 N 的 函数 ， 从 而 使 其 对 于 N 的 较 大 值 是 准确 的 。 本 书 中 算法 的 运行 
时 间 一 般 会 与 以 下 某 个 函数 成 正比 。 

1 大 多 数 程序 的 大 部 分 指令 执行 一 次 ， 或 者 至 多 只 执行 儿 次 。 如 果 一 个 程序 的 所 有 指令 具有 

这 个 性 质 ， 我 们 说 程序 的 运行 时 间 为 常量 。 
log N 当 程序 的 运行 时 间 为 对 数 时 ， 程 序 随 着 N 的 增长 稍微 变 慢 。 通 常 在 求解 一 个 大 规模 问题 

的 程序 中 ， 它 把 问题 变 成 一 些小 的 子 问题 ， 每 一 步 都 把 问题 的 规模 缩小 一 个 几 分 之 几 ， 

就 会 出 现 这 样 的 运行 时 间 。 在 我 们 关注 的 范围 ， 可 以 认为 这 个 运行 时 间 小 于 一 个 大 的 党 

数 。 对 数 的 基底 会 改变 这 个 常数 ， 但 影响 不 会 太 大 : 当 N = 1000 时 ， 如 果 底数 为 10， 则 

log N 为 3， 或 如 果 底 数 为 2， 则 log N 为 10， 当 N = 1 000 000 时 ，log N 只 是 前 值 的 两 倍 。 

当 N 加 倍 时 ，log 只 增加 常量 ， 只 有 N 增 加 到 N? 时 ，log N 才 会 加 倍 。 

N 当 程序 的 运行 时 间 为 线性 时 ,通常 对 每 个 输入 元 素 只 作 了 少量 处 理工 作 。 当 N = 1 000 000 时 ， 

运行 时 间 也 为 1 000 000。 当 N 加 倍 时 ， 运 行 时 间 也 随 之 加 倍 。 这 种 情况 对 于 一 个 必须 处 理 
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N 个 输入 (或 者 产生 N 个 输出 ) 的 算法 是 最 优 的 。 

N log N 当 把 问题 分 解 成 小 的 子 问题 ， 且 独立 求解 子 问题 ， 然 后 把 这 些 子 问题 的 解 组 合成 原 
问题 的 解 时 ， 就 会 出 现 N log N 的 运行 时 间 。 由 于 没有 更 好 的 形容 词 ， 我 们 只 能 说 这 
种 算法 的 运行 时 间 为 N log N。 当 N = 1 000 000 时 ，N log N 约 为 20 000 000。 当 N 加 倍 
时 ， 运 行 时 间 略 多 于 两 倍 。 

AM 当 算 靶 的 运行 时 间 为 二 次 (quadratic) 时 ， 算 法 只 适用 于 规模 相对 小 的 问题 。 二 次 运行 时 

间 一 般 出 现在 需要 处 理 所 有 数据 项 对 (也许 是 双 屋 赂 套 循环 ) 的 算法 中 。 当 N = 1000 时 ， 

运行 时 间 为 1 000 000。 当 NN 加 信和 有 时， 运行 时 间 增 加 四 倍 。 

类 似 地 ， 处 理 三 个 数据 项 的 算法 (或 许 是 三 层 屿 套 循 环 ) 的 运行 时 间 为 立方 (cubic), 算 

法 只 适用 于 小 规模 问题 。 当 N = 100 有 时， 运行 时 间 为 1 000 000。 当 入 加倍 时 ， 运 行 时 间 增 

加 八 倍 。 

2” 一 个 指数 (exponential) 运行 时 间 的 算法 很 难 在 实际 中 使 用 ， 即 使 这 样 的 算法 与 蛮 力 方法 

求解 问题 一 样 。 当 N = 20 时 ， 它 的 运行 时 间 为 1 000 000。 当 NN 加 倍 时 ， 运 行 时 间 是 原 时 间 

的 平方 ! 

某 个 程序 的 运行 时 间 很 可 能 是 某 个 项 〈 首 项 ) 的 常量 倍 ， 再 加 上 某 些 低 阶 项 。 常 系数 的 
值 和 包含 的 项 数 取决 于 分 析 的 结果 和 实现 的 细节 。 粗 略 地 说 ， 首 项 的 系数 与 内 层 循 环 中 的 指 
令 数 有 关 : 在 算法 设计 的 任 一 层 上 ， 要 仔细 限制 这 样 指令 的 数目 。 对 于 较 大 的 VN， 首 项 起 着 决 
定性 的 作用 ， 对 于 较 小 的 N 或 者 对 于 经 过 仔细 工程 化 的 算法 ， 多 个 项 可 能 会 对 算法 的 运行 时 间 
有 影响 ， 对 算法 进行 比较 也 更 困难 。 在 大 多 数 情况 下 ， 我 们 会 
把 程序 的 运行 时 间 简 单 称 为 “线性 ”、“N log N”"、“ 立 方 ” 等 等 。 


by 


N 





2.4 市 会 阅 述 这 样 做 的 理由 。 Do 

为 了 降低 程序 的 总 运行 时 间 ， 我 们 把 注意 力 放 在 使 内 层 特 天 
环 中 的 指令 数 最 少 上 。 对 每 条 指令 都 应 经 过 以 下 仔细 检查 : 真 3 
的 需要 这 条 指令 吗 ? 是 否 有 更 高 效 的 方式 完成 同一 任务 ? 某 些 3 1 和 
程序 员 认为 现代 编译 器 提供 的 自动 工具 可 以 产生 最 好 的 机 器 代 31 年 
码 ; 而 另外 一 些 人 认为 最 好 的 方法 是 把 内 循环 手工 编码 为 机 器 3.1 世 纪 - 
语言 或 汇编 语言 。 尽 管 我 们 偶尔 关注 某 些 操作 所 需要 的 机 器 指 水 不 结束 
令 数 ， 但 在 这 一 层 我 们 通常 不 作 优化 处 理 ， 这 可 以 帮助 我 们 理 图 2-1 秒 的 转换 
解 为 什么 在 实践 中 一 个 算法 会 比 另 一 个 算法 更 快 。 注 ， 各 果 我 们 以 秒 为 单位 并 换算 


对 于 小 规模 的 问题 ， 我 们 采用 哪 种 方法 差别 不 是 很 大 ， 在 。 ”成 家 们 熟悉 的 时 间 单 位 ， 就 
一 台 快 速 的 现代 计算 机 上 很 快 就 能 完成 这 项 任务 。 但 随 着 问题 会 清楚 地 钻 受 到 10 和 10 之 间 
的 规模 不 断 增 大 ， 所 处 理 的 指令 数 也 会 变 得 很 大 ， 如 表 2-2 所 示 。 。。 大 列 。 丰 们 可 以 到 妥 
当 一 个 慢 速算 法 中 要 执行 的 指令 数 真 的 变 成 很 大 时 ， 即 使 是 对 这 一 个 至 少 需要 3.1 年 时 间 完 
于 最 快 的 计算 机 ， 执 行 这 些 指令 所 需要 的 时 间 也 变 得 难以 接受 。 。。 成 的 程序 。 因为 2" 近 似 了 10 
图 2-1 给 出 了 以 秘 为 单位 的 数 与 日 、 月 、 年 等 的 转换 。 表 2-1 给 出 。。 各 兴 其 人 二 国人 几 1 基 的 
的 例子 显示 了 快速 算法 比 快 的 计算 机 在 我 们 面临 极度 运行 时 间 . 
的 问题 时 更 能 帮助 我 们 解决 问题 。 
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表 2-1 求解 大 规模 问题 的 时 间 


对 于 许多 应 用 问题 ， 求 解 大 规模 问题 实例 的 机 会 是 利用 高 效 算法 。 这 个 表格 表明 了 分 别 利用 线性 、N log N 和 二 
次 时 间 算 法 在 每 秒 执行 1 百 万 条 指令 、10 亿 条 指令 和 1 万 亿 条 指令 的 计算 机 上 求解 规模 为 1 百 万 和 10 亿 的 问题 所 需要 的 
最 小 运行 时 间 。 快 速算 法 可 以 使 我 们 在 慢 速 计算 机 上 求解 问题 ,但 是 利用 慢 速 算法 在 快速 机 器 上 却 毫 无 帮助 。 





规模 为 1 百 方 的 问题 规模 为 10 亿 的 个 
每 秒 操作 次 数 模 为 10 亿 的 问题 
N NlgN Ne N NlgN N 
10， 秒 种 周 时 时 永远 
10° 瞬间 瞬间 时 秒 秒 十 年 
1012 是 间 包间 秒 瞬间 瞬间 周 





还 有 另 一 些 图 数 。 例 如 ， 输 入 为 Y 的 算法 的 运行 时 间 与 成 正比 是 最 好 的 ， 一 般 认 为 这 
类 算法 的 运行 时 间 为 N%“"。 同 样 ， 某 些 算法 有 两 个 阶段 的 子 问题 分 解 ， 这 会 得 到 与 N log? NN 成 
正比 的 算法 。 表 2-2 表 明 这 两 类 函数 距离 Nlog N 比 六 近 。 


表 2-2 常见 函数 值 


这 个 表 列 出 了 算法 分 析 中 常见 的 一 些 函 数 的 相对 大 小 。 对 于 较 大 的 N， 二 次 函数 显然 在 其 中 起 着 控制 作用 。 对 
于 较 小 的 N， 较 小 函数 之 闻 的 差异 不 像 我 们 期 望 的 那样 。 例 如 ， 对 于 较 大 的 N 值 ，N” 应 该 大 于 N lg: N， 但 在 实际 中 对 
于 较 小 的 N 值 ，N lg” N 更 大 。 准 确 地 表征 算法 的 运行 时 间 可 能 会 涉及 这 些 函 数 的 线性 组 合 。 由 于 lg N 和 N 或 N 和 的 巨 
大 差异 ， 我 们 可 以 容易 地 把 快速 算法 从 慢 速算 法 中 分 离 出 来 ， 但 要 在 快速 算法 中 区 分 哪个 更 快 则 需要 仔细 研究 。 


lgN VN N NlgN Ng NM N32 a 
3 3 10 33 110 32 100 
7 10 100 664 4 414 1 000 10 000 
10 32 1 000 9 966 99 317 31 623 1 000 000 
13 100 10 000 132 877 1 765 633 1 000 000 100 000 000 
17 316 100 000 1660 964 27 588 016 31 622 777 10 000 000 000 
20 1 000 1000000 19931569 397267426 1000000000 1 000 000 000 000 


对 数 函 数 在 算法 设计 和 分 析 中 起 着 特殊 的 作用 ， 因 而 值得 详细 讨论 它们 。 因 为 我 们 处 理 
的 分 析 结 果 常 常 只 差 一 个 常量 因子 ， 因 而 利用 不 确定 底数 的 符号 “log N” 表 示 。 把 底数 从 一 
个 常数 变 成 另 一 个 常数 ， 对 数值 只 会 改变 一 个 常数 因子 ， 但 在 特殊 情况 下 会 给 出 明确 的 底数 。 
在 数学 中 ， 由 于 自然 对 数 (底数 e = 2.71828…) 的 重要 性 ， 通 常 简化 为 log。 N=ln N。 在 计算 机 
科学 中 ， 二 进 制 对 数 (以 2 为 底 ) 也 很 重要 ， 通 常 简化 为 log, N=lg N。 

有 时， 我 们 会 反复 取 对 数 ， 对 一 个 大 数 连续 取 对 数 。 例 如 lg lg 2*” = lg 256= 8。 如 同 这 个 
例子 中 说 明 的 那样 ， 实 际 中 即使 当 N 很 大 时 ，lg lg N 也 很 小 ， 一 般 把 它 看 作 常 数 。 

大 于 lg N 的 最 小 整数 为 把 N 表 示 成 二 进 制 后 所 需 的 位 数 ， 同 样 ， 大 于 lg1o N 的 最 小 整数 为 把 
N 表 示 成 十 进 制 后 所 需 的 位 数 。C 语 名 

for (1g9N = 0; N > 0; lgN++, N /= 2); 
是 计算 大 于 lg N 的 最 小 整数 的 一 种 简单 方法 。 计 算 这 个 函数 的 一 种 类 似 方法 为 

for (lgN = 0, t = 1; t < N; lgN++, t += t+); 
当 n 为 大 于 lg 入 的 最 小 整数 时 ， 这 个 版 本 强调 2*<N < 2”。 

通常 在 经 典 分 析 中 我 们 还 会 遇 到 大 量 特 殊 的 函数 和 数学 符号 ， 它 们 为 简明 地 描述 程序 的 
性 质 提 供 了 有 用 的 工具 。 表 2-3 概 述 了 最 熟悉 的 一 些 函 数 ， 以 下 几 段 简明 地 讨论 其 中 的 一 些 函 
数 及 其 重要 的 性 质 。 
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表 2-3 ”特殊 函数 和 常数 


这 个 表 概 述 了 我 们 在 描述 算法 性 能 时 所 用 的 一 些 数学 符号 和 常数 。 如 果 需 要 ， 公 式 的 近似 值 可 以 精确 得 多 ( 见 
本 部 分 最 后 的 参考 文献 )。 


函数 名 称 ”特殊 值 近 似 

[x*] floor 国 数 [3.14] = 3 x 

[zx ceil 函 数 [3-14] =4 x 

lgN 以 2 为 底 的 对 数 lg 1024 = 10 1.44 In N 

Fy 斐 波 纳 契 数 Fio=55 入/ 

Hn 调和 数 Hio~=2.9 In N+y 

Ni 阶乘 函数 10!1 = 3628800 (N/eN 

lg (N!) ig (100!) = 520 NlgN— 1.44N 
e = 2.718 28… 
y=0.577 21… 


$= (1+V5)/2= 1.618 03… 
In 2 = 0.693 147… 
lge = 1/n2= 1.442 69... 


算法 和 分 析 中 最 常 处 理 的 是 一 些 离散 的 单元 ， 因 而 需要 以 下 把 实数 转换 成 整数 的 特殊 函数 ， 

|*]: 小 于 或 等 于 x 的 最 大 整数 。 

[*1: 大 于 或 等 于 x 的 最 小 整数 。 

例如 ，|[T] 和 [e] 都 为 3，[lg(N+DD] 为 N 的 二 进 制 表 示 的 位 数 。 这 些 函 数 的 另 一 个 重要 应 用 
是 在 我 们 希望 把 N 的 对 象 的 集合 划分 成 两 半 时 。 如 果 N 为 奇数 ， 我 们 不 能 精确 地 把 它 划 分 成 两 
半 ， 要 精确 ， 则 一 个 集合 中 有 |[N/2] 个 对 象 ， 另 一 个 集合 中 有 [N/2]1 个 对 象 。 如 果 N 为 偶数 ， 
这 两 个 子 集合 的 大 小 相等 ， 为 IN/2]= [N/2]; 如 果 N 为 奇数 ， 则 两 个 子 集 合 的 大 小 差 1 
(LN/2|+1 = [N/21)。 在 C 语 言 中 ， 当 我 们 操作 在 整数 上 时 ， 可 以 直接 计算 这 些 函 数 (例如 ， 
如 果 Nz>0， 那 么 W2 = |[N/2|]，N-(N/2)= [N/2])。 而 当 我 们 操作 在 浮 点 数 上 时 ， 可 以 利用 
math.h 中 的 f1oor 和 cei1 计 算 这 些 函 数 。 

离散 自然 对 数 函 数 称 为 调和 数 (harmonic muber) ， 常 用 在 算法 分 析 中 。 第 N 个 调和 数 由 
以 下 方程 定义 

1 l 


Hy -14+ 工 + 工 +.+ 工 
2 3 NW 


自然 对 数 In N 是 曲线 1/x 在 1 和 N 之 间 与 x 轴 所 夹 区 域 的 面积 ， 调 和 数 H 是 计算 曲线 1/x 的 阶 
梯 函 数 在 1 和 N 之 间 与 x 轴 所 夹 区 域 的 面积 ， 图 2-2 说 明 


了 这 两 者 的 关系 。 公 式 
Bi=InN+y+I(CI2N) 


其 中 y = 0.577 21…， 这 个 常数 称 为 欧 拉 常 数 (Euler's 1 N 

constant) ， 它 给 出 Hw 的 一 个 很 好 近似 。 与 [eV] 图 2-2 调和 数 

和 |g 六 | 不同 ， 最 好 利用 库 函 数 10g 计 算 瓦 , ， 而 注 : 调和 数 近 似 表示 曲线 1/x 下 的 面积 。 常 数 y 

不 是 直接 由 定义 计算 。 表示 Hw 与 nN = [Gyvz 之 同 的 兰 值 
数列 


01123581321345589 144 233 377… 
是 由 公式 
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Fy= Fy +Fy2, N>2, Fo=0, FI=1 

定义 的 ， 叫 做 辈 波 纳 契 数 (Fibonacci number) ， 它 们 有 许多 有 趣 的 性 质 。 例 如 ， 相 邻 两 项 的 
比率 接近 黄金 分 割 比率 (golden ratio) $= (1 + VS)/2 = 1.618 03…。 更 详细 的 分 析 可 得 ，F = 
入 /1 V5 取景 接近 整数 的 结果 。 

我 们 有 时 还 会 用 到 熟悉 的 阶 来 (factorial) 函数 N!。 像 指数 函数 一 样 ， 当 用 蛮 力 方法 求解 
问题 时 可 能 出 现 阶乘 函数 ， 它 增长 得 太 快 ， 这 种 方法 不 能 用 于 实际 中 。 由 于 它 表 示 N 个 对 象 的 
所 有 排列 ， 它 还 出 现在 算法 分 析 中 。 利 用 Stirling 公 式 

lgNI= NlgN- Nlge+lgV2nN 
可 以 得 到 计算 NI 的 近似 方法 。 例如 ， 由 Stirling 公 式 可 得 ，N! 的 二 进 制 表示 的 位 数 大 约 是 N lg N。 

我 们 在 本 书 中 讨论 的 大 多 数 公式 都 是 用 这 一 节 里 描述 的 函数 表示 的 。 还 有 其 他 一 些 函 数 
也 会 出 现在 算 分 析 中 。 人 例如， 经典 二 项 分 布 (binnomial distribution) 和 相关 治 松 近似 
(Poisson approximation) 在 第 14 章 和 第 15 章 讨论 的 某 些 基本 搜索 算法 的 设计 与 分 析 中 起 着 重 
要 作用 。 在 遇 到 那些 这 里 没有 列 出 的 函数 时 会 讨论 它们 。 
练习 

2.5 NN 为 何 值 时 ，10N lg N > 2N23 

>2.6 N 为 何 值 时 ，N3? 介 于 N (lg N)Y2 和 2N (lg N)*/ 之 间 ? 

2.7 AN 为 何 值 时 ，2NE 一 N < NlgN + 10N? 

o2.8 使 得 logio logio N > 8 的 最 小 值 N 是 多 少 ? 

co2.9 证 明 : llgN]+1 是 N 的 二 进 制 表 示 所 需 的 位 数 。 

2.10 在 表 2-1 中 增加 两 列 ，N (log NN”?。 

2.11 在 表 2-1 中 增加 两 行 ， 每 秒 10" 和 10° 条 指令 1 

2.12 利用 标准 数学 库 中 的 10g 函 数 ， 写 一 个 计算 太 的 C 函 数 。 

2.13 不 用 库 函 数 ， 写 一 个 高 效 计算 | 夫 井 入 ] 的 C 函 数 。 

2.14 在 100 万 的 阶乘 的 十 进 制 表示 中 有 多 少 位 数字 ? 

2.15 lg (VD 的 二 进 制 表示 有 多 少 位? 

2.16 玖 的 二 进 制 表示 有 多 少 位 ? 

2.17 给 出 [|i8F | 的 一 种 简单 表示 。 

co2.18 给 出 满足 [Hw | = ;的 最 小 值 N， 其 中 1<i< 10。 

2.19 “对 于 给 定 的 KAN) ， 给 出 在 一 台 每 秒 执行 10' 条 指令 的 机 器 上 ， 求 解 问题 至 少 执行 KM) 条 指 
令 的 最 大 值 W， 其 中 国 数 KN) 为 : NM、N、2VBA、NigNlglgN 和 N1gN。 


2.4 大 O 符 号 


在 分 析 算 法 时 ， 可 使 我 们 省 略 细节 的 数学 技巧 称 为 O 符 号 〈O-notation) ， 读 作 大 O 符 号 ， 
定义 如 下 。 

定义 2.1 ”如果 存在 常数 co 和 No， 对 于 所 有 N > No， 有 8g(N) < cof(N)， 则 称 池 数 g(N) 是 
ON)) 的 。 

我 们 利用 大 0O 符 号 有 三 个 作用 : 

。 限 制 忽略 数学 公式 中 的 低 阶 项 时 产生 的 误差 。 

。 限 制 由 于 忽略 对 程序 的 总 运行 时 间 和 贡献 较 小 的 某 些 部 分 时 产生 的 错误 。 

。 人 允许 我 们 按照 算法 总 运行 时 间 的 上 界 对 算法 进行 分 类 。 
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我 们 将 在 2.7 节 讨论 第 三 个 作用 。 这 里 只 简明 地 讨论 另 两 个 作用 。 
在 大 0 中 隐 含 的 常数 cc 和 No 常常 隐藏 实际 中 重要 的 实现 细节 。 显 然 ， 当 N 小 于 Nu 时， 说 一 
个 算法 的 运行 时 间 为 CUKNV)) 毫 无 意义 ， 并 且 co 可 能 隐藏 了 设计 用 以 避免 最 坏 情 况 所 引入 的 大 
量 开销 ， 我 们 宁愿 利用 一 个 N 纳 秒 级 的 算法 ， 也 不 愿 利用 一 个 log 世纪 的 算法 ， 但 用 大 0O 表 
示 法 中 无 法 做 出 这 样 的 选择 。 
通常 来 说 ， 数 学 分 析 的 结果 不 是 精确 的 ， 而 是 精确 技术 意义 上 的 一 种 近似 : 结果 可 能 是 
由 递增 序列 组 成 的 一 个 表达 式 。 正 如 最 关注 程序 的 内 循环 一 样 ， 我 们 最 关注 数学 表达 式 的 首 
项 (leading term)， 也 就 是 最 高 次 的 项 。 大 O 符 号 允许 我 们 在 操作 近似 数学 表达 式 时 ， 只 记录 
首 项 ， 而 可 以 忽略 其 他 低 阶 项 ， 最 终 可 使 我 们 给 出 对 于 所 分 析 的 数学 表达 式 的 精确 近似 的 简 
洁 陈 述 。 
当 处 理 包含 大 0 的 表达 式 时 ， 我 们 使 用 的 一 些 基本 操作 就 出 现在 练习 2.20~2.25 中 。 其 中 
大 部 分 操作 是 直观 的 ， 但 有 一 定数 学 基础 的 读者 可 能 对 从 定义 证 明 练 习 2.21 中 的 基本 操作 的 
高 效 性 感 兴趣 。 特 别 地 ， 这 些 练习 是 说 ,我 们 可 以 展开 带 有 0O 符 号 的 代数 表达 式 ， 就 像 大 O 没 
在 其 中 出 现 一 样 ， 然 后 去 掉 其 他 项 ， 只 保留 首 项 。 例 如 ， 如 果 展 开 表达 式 
(N+ O(1)) (N+ O(log N) + 0O(1)) 
可 以 得 到 六 项 
N? + O(N) + O(N log N) + O(log N) + O(N) + O(1) 
但 可 以 去 掉 低 价 项 ， 得 到 表达 式 的 一 种 近似 
NM+OClog N) 
也 就 是 说 ， 当 N 较 大 时 ，N 是 这 个 表达 式 的 一 种 较 好 近似 。 这 些 操作 是 直觉 的 ， 但 大 0 符号 人 
许 我 们 用 数学 方式 严格 且 精 确 地 表示 这 些 表 达 式 。 我 们 称 含 有 大 0 项 的 公式 为 新 近 表 达 式 。 
以 下 来 看 一 个 更 相关 的 例子 ， 假 设 在 经 过 数学 分 析 之 后 ， 我 们 测定 某 个 算法 的 内 循环 平 
均 和 迭代 2NHw 次 ， 外 层 循 环 迭 代 N 次 ， 且 初始 化 代码 执行 一 次 。 进 一 步 假设 内 循环 每 次 迭代 需 
要 ao 纳 秒 ， 外 循环 每 次 迭代 需要 ai 纳 秒 ， 初 始 化 部 分 需要 a: 纳 秒 。 于 是 ， 程 序 的 平均 运行 时 间 
(以 纳 秒 为 单位 ) 为 : 
2ao NH +aN+ta, 
但 也 可 以 说 程序 的 运行 时 间 为 : 
2ao NHy + O(N) 
这 种 更 简单 的 形式 很 重要 ， 因 为 对 于 较 大 的 N， 我 们 不 需 找 出 a 或 4, 的 值 ， 就 可 得 到 运行 时 间 
的 近似 。 一 般 而 言 ， 在 精确 运行 时 间 的 数学 表达 式 中 ， 还 有 许多 其 他 项 ， 其 中 一 些 难以 分 析 。 
对 于 较 大 N， 大 O 符 号 为 我 们 提供 了 不 用 考虑 这 些 项 就 可 得 到 近似 解答 的 一 种 方法 。 
继续 上 述 的 这 个 例子 ， 我 们 还 可 以 利用 大 0 符号 根据 一 个 类 似 的 函数 ln 入 表示 运行 时 间 。 
按照 大 O 符 号 ， 表 2-3 中 的 近似 式 可 以 表示 为 Hy = In N+ 0(1)。 因 此 ，2ao N ln N + OO 是 我 们 
算法 总 运行 时 间 的 一 种 渐 近 表示 。 我 们 期 望 当 N 较 大 时 ， 运 行 时 间 可 以 近似 到 比较 容易 计算 的 
值 2ao N ln N。 常 数 因子 ao 是 由 内 层 循 环 的 指令 的 执行 时 间 决 定 的 。 
另外 ， 对 于 较 大 的 W， 我 们 不 需要 知道 ao 的 值 ， 就 可 以 预测 输入 规模 为 2N 时 的 运行 时 间 大 
约 是 输入 规模 为 N 时 的 运行 时 间 的 两 倍 ， 这 是 因为 


--- 葛 ? 关 着 潜 分 听 折 怖 理 25 





2a0(2N)In(QN) + OQN) 2inC2M+OGD 7 ( 1 ) 


2a0NlnN + O(N) 


lnN + O(1) 


logN 


也 就 是 说 ， 渐 近 公式 允许 我 们 忽略 实现 或 分 析 的 细节 进行 精确 的 预测 。 注 意 ， 如 果 我 们 想 要 
只 有 首 项 的 大 0 近似 ， 就 不 太 可 能 进行 这 样 的 预测 。 

刚才 列 出 的 推理 过 程 允 许 我 们 在 比较 或 试图 预测 算法 的 运行 时 间 时 ， 只 需 关注 其 首 项 。 
我 们 还 常常 需要 计算 所 执行 的 固定 开销 操作 的 次 数 ， 并 想 要 利用 首 项 进行 估计 ， 通 常 只 记录 
首 项 ， 隐 含 地 假设 必要 时 可 以 进行 刚才 给 出 的 精确 分 析 。 


如 果 函 数 AN) 渐 近 大 于 另 一 个 函数 g(N) 
(也 就 是 说 ， 当 NN 一 % 时 ，g(N)/AN)) 一 0)， 
在 本 书 中 我 们 有 时 利用 术语 约 等 于 ACN) 表 示 
AN) + Olg(N))。 我 们 这 样 做 似乎 损失 了 数学 
上 的 精确 性 ,但 所 得 结果 简洁 ， 因 为 我 们 对 
算法 的 性 能 更 感 兴趣 。 在 这 些 情况 下 ， 我 们 
可 以 确信 无 疑 地 说 ， 对 于 较 大 的 N (不 是 对 
所 有 Ni) ， 问 题 的 表达 式 可 以 近似 为 KM)。 例 
如 ， 如 果 已 知 表达 式 为 NCN 一 1)/2， 我 们 可 以 
近似 把 它 表示 为 NY/2。 这 种 表达 结果 的 方式 
比 起 精确 结果 更 容易 理解 ,而且 对 于 NN 
=1000， 误差 只 有 0.001。 与 常用 的 ON)) 表 
示 所 损失 的 精确 度 相 比 这 些 情况 所 损失 的 精 
确 度 更 小 。 我 们 在 描述 算法 的 性 能 时 ， 希 望 
既 精 确 又 简洁 。 

类 似 地 ， 如 果 我 们 能 够 证 明 当 g(N) 渐 近 
小 于 f(N) 时 ， 算 法 的 运行 时 间 等 于 cf(N) + 
8(N)， 则 说 算法 的 运行 时 间 与 fCN) 成 正比 。 
如 果 这 种 限制 成 立 ， 我 们 就 能 像 在 讨论 的 例 
子 中 那样 ， 比 如 说 把 为 N 的 观察 运行 时 间 映 
射 到 2N。 图 2-5 给 出 了 算法 分 析 中 我 们 可 以 
使 用 的 一 些 常见 函数 的 映射 。 结 合 经 验 研究 
( 见 2.1 节 )， 这 种 方法 可 以 无 需 详细 确定 依 
赖 实现 的 常数 。 或 者 ， 反 过 来 思考 ， 我 们 可 
以 通过 确定 N 加 倍 时 对 运行 时 间 的 影响 ， 研 
制 一 种 运行 时 间 随 着 输入 规模 增长 的 函数 。 

图 2-3 和 图 2-4 显 示 了 大 0O、 与 …… 成 正 
比 和 约 等 于 之 间 的 区 别 。 我 们 主要 使 用 大 O 
符号 研究 算法 的 基本 渐 近 行为 ， 当 由 经 验 研 
究 推理 算法 的 渐 近 行为 时 则 使 用 “与 ……: 成 
正比 ”， 当 希望 比较 性 能 或 者 进行 精确 的 性 
能 预测 时 则 使 用 “ 约 等 于 ”。 


注 : 


图 2-3 用 大 0 近似 限制 一 个 函数 


在 这 个 图 示 中 ， 才 荡 曲 线 表示 我 们 试图 近似 的 函数 
8B(N); 累 色 光滑 曲线 表示 另 一 函数 KMN)， 它 是 我 们 试图 
用 于 近似 的 函数 ;灰色 光滑 曲线 表示 cKN) ，c 为 某 个 
常数 。 生 线 表 示 No 的 值 ， 表 示 当 N > No 时 ， 这 个 近似 
关系 才 成 立 。 当 我 们 说 g(N) = O(KN)) 时 ， 我 们 只 期 户 
8( 和 V) 的 值 位 于 (LN) 易 线 形状 的 下 面 、 某 条 楼 线 的 右边 。 
AM) 可 以 是 任意 函数 〈 例 如， 其 至 不 必 是 连续 函数 ) 。 


VV 


_ ~ — 


-一 


一 /一 


一 一 


图 2-4 函数 近似 


: 当 我 们 说 8(N) 与 KN) (上 图 ) 成 正比 时 ， 项 望 它 最 终 


像 岂 NM) 那 样 的 艳 势 增长 ， 但 可 能 相差 一 个 常数 。 给 定 
8(N) 的 某 个 值 ， 我 们 可 以 估计 NN 较 大 时 它 的 值 。 当 我 
们 说 g(N) 大 约 是 AN) (下 图 ) 时 ,希望 最 终 可 以 利用 
精确 估计 8 的 值 。 
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none 

slight increase 

double 

slightly more than double 


factor of 2V2 
factor of 4 
factor of 8 
square 





图 2-5 问题 加 倍 对 运行 时 间 的 影响 
注 : 正如 表 中 所 显示 的 那样 ， 当 运行 时 间 与 菜 些 简单 函数 成 正比 时 ， 预 测 问题 加 倍 对 运行 时 间 的 影响 是 一 侍 简 
单 的 任务 。 理 论 上 ， 仅 当 N 很 大 时 ， 我 们 才能 信 环 这 个 结果 ， 但 这 种 方法 非常 高 效 。 相 反 ， 确 定 一 个 程序 
运行 时 间 的 函数 增长 的 快速 方法 是 使 痊 入 规模 N 尽 可 能 地 加 倍 ， 实 际 上 运行 这 个 程序 ， 然 后 再 查 表 。 
练习 
>2.20 证 明 0(1) 与 0(2) 相 等 。 
2.21 证 明 可 以 对 利用 大 O 符 号 的 表达 式 做 以 下 变换 。 
AN) 一 ON)), 
cON)) — ON)), 
O(cf(N)) 一 ON)), 
AN)—g(N) = OC(h(N)) — AfN) = g(N) + O(h(N)), 
O(N))O(g(N)) 一 ON)g(N)), 
O(N)) + O(g(N)) -> O(g(N)) 如 果 AN) = OCg8(N)). 
o2.22 证 明 (N + D(Hy+ 0(1)) =N lnN+ O(N)。 
2.23 证 明 N ln N = O(N3?)。 
。2.24 证 明 对 于 任意 MM 和 常数 a > 1， 有 N* = O(a)。 
。2.25 证 明 
_N -of 
N+ O00) \N) 
2.26 假设 Hk = N。 给 出 将 表示 成 N 的 函数 的 近似 公式 。 
。2.27 假设 lg(k!) = N。 给 出 将 k 表 示 成 N 的 函数 的 近似 公式 。 
o02.28 ”给 定 某 个 算法 的 运行 时 间 为 O(N log N)， 另 一 个 算法 的 运行 时 间 为 O(N)。 这 种 说 法 强 
涵 这 两 个 算法 之 间 的 相对 性 能 如 何 ? 
02.29 给 定 某 个 算法 的 运行 时 间 大 约 总 是 为 N log N， 另 一 个 算法 的 运行 时 间 为 O(N”)。 这 种 说 
法 蕴涵 这 两 个 算法 之 间 的 相对 性 能 如 何 ? 
02.30 ”给 定 某 个 算法 的 运行 时 间 大 约 总 是 为 N log N， 另 一 个 算法 的 运行 时 间 总 是 为 WW。 这 种 
说 法 蕴涵 这 两 个 算法 之 间 的 相对 性 能 如 何 ? 
02.31 ”给 定 某 个 算法 的 运行 时 间 总 是 与 N log NN 成 正比 ， 另 一 个 算法 的 运行 时 间 总 是 与 N 成正 
比 。 这 种 说 法 蕴涵 这 两 个 算法 之 间 的 相对 性 能 如 何 ? 
02.32 导出 图 2-5 中 给 出 的 因子 : 对 于 左边 出 现 的 每 个 函数 KN)， 求 出 K2N)XKN) 的 一 个 渐 近 


公式 。 
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2.5 ”基本 递归 方程 


正如 将 在 本 书 中 所 看 到 的 那样 ， 许 多 算法 基于 递归 分 解 的 原理 ， 把 大 问题 分 成 一 个 或 多 
个 更 小 的 子 问 题 ， 利 用 子 问 题 的 解 来 求解 原 问 题 。 我 们 将 在 第 5 章 详细 讨论 这 种 方法 ， 主 要 是 
从 实际 的 角度， 关注 方法 的 实现 及 应 用 。 我 们 在 2.6 节 详细 讨论 一 个 例子 。 在 这 一 节 里 ， 我 们 
看 看 分 析 此 类 算法 的 一 些 基本 方法 ， 并 推出 出 现在 我 们 所 学 习 的 许多 算法 的 分 析 中 的 几 个 标 
准 公式 的 解法 。 理 解 本 节 公 式 中 的 数学 性 质 可 使 我 们 洞察 书 中 算 靶 的 性 能 特征 。 
公式 2.1 如 果 程 序 的 循环 通过 输入 每 次 减少 一 项 ， 递 归公 式 为 ， 
Cw=Ci+N,NDZz2， 昌 CI=1 
解 ， Cy 约 为 N/2。 为 了 计算 Cy 的 值 ， 我 们 代入 自身 展开 这 个 公式 ， 可 得 : 
Cy=CyitN 
= Cy2+(N—1)+N 
=Cy3+(N-—2)+(N—1)+N 


=CI+2+…+(N-2)+(CV-D+N 
=1+2+…+(N-—2)+(N-1)+N 
_ N(N+!1) 
= 一 了 
和 式 1 + 2 +…+ (N 一 2) + (N 一 1) + N 的 计算 非常 基本 : 将 和 按照 逆序 逐 项 加 到 自身 上 ， 结 
果 有 NN 项 ， 每 一 项 都 为 N+ 1， 结 果 为 所 求 和 的 两 倍 。 
这 个 简单 的 例子 说 明了 我 们 在 这 一 节 里 所 讨论 的 众多 公式 所 用 的 基本 模式 ， 这 些 公 式 都 
是 基于 这 样 的 原理 : 递归 分 解 算法 直接 反映 在 它 的 分 析 中 。 例 如 ， 这 种 算法 的 运行 时 间 是 由 
问题 的 规模 、 子 问题 的 个 数 以 及 分 解 所 需要 的 时 间 决 定 。 从 数学 上 看 ， 输 入 规模 为 N 的 算法 的 
运行 时 间 依 赖 于 它 的 更 小 输入 规模 的 运行 时 间 ， 很 容易 用 称 为 递归 关系 的 公式 表示 。 这 样 的 
公式 精确 地 描述 了 相应 算法 的 性 能 : 求解 递归 方程 就 可 以 得 到 算法 的 运行 时 间 。 在 遇见 某 个 
特定 算法 时 ， 会 更 严格 地 论述 这 个 过 程 。 这 里 我 们 主要 关注 公式 自身 。 
公式 2.2 如 果 程 序 每 次 使 输入 减 半 ， 递 归公 式 为 : 
Cy=Cnr+1, N>2, HC=1 
解 ， Cw 约 为 lg N。 我 们 假设 N 为 偶数 ， 或 者 N/2 可 以 整除 。 现 在 ,假设 N = 2"， 因 而 递归 方 
程 总 是 良 定义 的 。( 注 意 n = lg N。) 这 个 递归 方程 甚至 比 前 一 个 递归 方程 更 容易 求解 
Co = Cn-i+l 
= Cos-2 十 1 十 1 
= Cyn-3+3 


= C20 十 严 
=n+l 
对 于 一 般 情况 N 的 精确 解 取 决 于 对 N/2 的 解释 。 在 这 种 情况 下 ，N/2 解 释 为 IN/2|， 可 得 简 
单 解 : Cw 是 N 的 二 进 制 表 示 的 位 数 ， 由 定义 为 [lgN] + 1。 由 事实 可 以 直接 得 到 如 下 结论 : 删 
除 任 意 整 数 NCN > 0) 的 二 进 制 表示 的 最 右 端的 位 可 得 |NN/2| ( 见 图 2-6) 。 
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图 2-6 整数 函数 和 二 进 制 表示 
注 : 给 定数 N 的 二 进 制 表示 (中 间 一 列 )， 可 以 去 掉 这 列 中 最 右 端 的 一 位 ， 得 到 |N/2]。 也 就 是 说 ，N 的 二 进 制 
表示 的 位 数 比 [N12| 的 二 进 制 表示 的 位 数 大 1。 因 此 ，N 的 二 进 制 表示 的 位 数 是 公式 2.2 在 N/2 解 释 为 [N12] 
时 的 解 ， 即 为 [lgN] + 1。 
公式 2.3 如 果 程 序 每 次 使 输入 减 半 ， 但 需要 检查 输入 的 每 一 项 ， 递 归公 式 为 : 
Cv=Cwmwm+N，Nz2， 且 C, =0 
解 ; Ch 约 为 2V。 递 归 伸缩 和 N + N/2 + N/4 + N/8+… (〈 像 公式 2.2 一 样 ， 仅 当 N 是 2 的 寡 时 
这 个 递归 方程 才能 精确 定义 。) 如 果 序 列 是 无 限 序 列 ， 这 个 简单 的 几何 级 数 求 和 恰好 为 2V。 因 
为 我 们 不 断 整除 ， 并 在 达到 1 时 停止 ， 这 个 值 是 精确 值 的 一 个 近似 值 。 精 确 值 与 N 的 二 进 制 表 
示 的 性 质 有 关 。 
公式 2.4 ”如 果 程 序 把 输入 分 成 两 半 ， 但 在 划分 之 前 、 划 分 之 中 以 及 划分 之 后 需要 线性 遍 
历 输入 ， 递 归公 式 为 : 
Cy=2Cw + N, N>2, HC,=0 
解 ，Ch 约 为 N lg N。 在 我 们 讨论 的 公式 中 ， 这 个 公式 最 常用 。 因 为 这 个 递归 方程 可 应 用 到 
一 大 类 标准 的 分 治 算法 中 。 
Cyn= 2Cyn-1 + 2 





C, 
2 
C_ 
= 2 +1+1 


=n 
这 个 求解 的 过 程 类 似 于 公式 2.2 的 求解 过 程 ， 但 需要 一 点 技巧 ， 在 第 二 步 中 将 递归 方程 的 两 端 
除 以 2"， 使 得 该 方程 成 为 伸缩 和 。 
公式 2.5 ”如 果 程 序 把 输入 分 成 两 半 ， 然 后 做 一 些 需 要 常量 时 间 的 其 他 工作 〈 见 第 5 章 )， 
递归 公式 为 ; 
Cv=2Cw+1，Nz2， 且 Ci=1 
解 ， Ch 约 为 2N。 我 们 可 以 像 公 式 2.4 的 求解 过 程 那样 ， 导 出 这 个 公式 的 解 。 
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尽管 我 们 可 以 用 同样 的 求解 技术 求解 以 上 公式 的 一 些 变 体 ， 这 些 变 体 可 能 有 不 同 的 初始 

条 件 ， 或 者 加 上 的 一 项 形式 略 有 不 同 ， 但 我 们 也 要 注意 到 某 些 看 起 来 和 这 些 公式 类 似 的 递归 
方程 实际 上 相当 难以 求解 。 有 大 量 的 高 级 技术 可 用 严格 的 数学 方法 来 处 理 这 些 方程 ( 见 第 一 
部 分 参考 文献 ) 。 在 后 续 的 章节 中 我 们 会 遇 到 儿 个 更 复杂 的 递归 方程 ， 到 时 再 讨论 它们 。 

练习 

>2.33 对 于 1<N<32， 列 表 求 出 公式 2.2 中 的 Cw 值 ， 其 中 人 2 解释 为 LV/2|。 

>2.34 假设 N/2 为 [N/2]， 回 答 练 习 2.33。 

>2.35 对 公式 2.3， 回 答 练习 2.34。 

02.36 假设 包 与 一 个 常数 成 正比 ， 

Cw= Cwm+ 岂 ，N>ti 且 对 于 NW<t，0 迄 Cuv <c， 

其 中 c 和 都 是 常数 。 证 明 Cw 与 log N 成 正比 。 
* 2.37 阐述 并 证 明 公式 2.3 至 公式 2.5 的 一 般 形 式 ， 类 似 练习 2.36 中 公式 2.2 的 一 般 形 式 。 

2.38 对 于 1<N<32, 分 三 种 情况 列表 求 出 公式 2.4 中 的 Cn 值 。(i) MW2 解 释 为 LVW/2|; (ii) N/2 解 
释 为 [入 /21; (ii) 2Cwa 解 释 为 Clwaj+ Ciwy21。 

2.39 当 N/2 为 ILN/12] 时 ， 求 解 公式 2.4。 类 似 公式 2.2 的 证 明 ， 利 用 对 应 N 的 二 进 制 表示 。 提 示 ; 
考虑 所 有 比 N 小 的 数 。 


2.40 解 递归 方程 

Cy= Cy + NN, N>2, HBC,=0, 
其 中 是 2 的 圭 。 
2.41 解 递归 方程 

Cy= Cyat+1, N>2, HAC,=0, 
其 中 和 是 a 的 稳 。 


02.42 解 递归 方程 
Cy= aCw, N>2, BC,=1, 
其 中 和 N 是 2 的 宽 。 
o02.43 解 递 归 方 程 
Cn = (C2) 入 >2， 且 C， = 工 ， 
。2.44 解 递归 方程 
Cy= (2+ Ee’ N>2, HC,=1, 
其 中 N 是 2 的 等。 
“2.45 ”考虑 类 似 公式 2.1 的 递归 方程 族 ， 其 中 N/2 解 释 为 LV/12] 或 解释 为 [W/12] ， 并 且 只 要 求 递 
归 方 程 对 于 N > co 成 立 ， 且 对 于 N<co，Cw = 0O(1)。 证 明 lg N+ O() 是 所 有 此 类 递归 方程 的 解 。 
*%2.46 类 似 练 习 2.45， 给 出 公式 2.2 至 公式 2.5 的 一 般 递归 方程 及 其 解 。 


2.6 算法 分 析 示 例 


具备 了 上 述 三 节 介 绍 的 知识 ， 我 们 现在 可 以 考虑 两 个 基本 的 搜索 算法 ,顺序 搜索 
(sequential search) 和 二 分 搜索 (binary search ) ， 它们 都 是 用 来 确定 一 个 对 象 是 否 出 现在 已 有 
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对 象 的 集合 中 。 目 的 是 为 了 说 明 比较 算法 所 用 的 方法 ， 而 不 是 详细 描述 这 些 具体 的 算法 。 为 
了 简化 描述 ， 我 们 假设 所 讨论 的 对 象 都 是 整数 。 第 12 章 至 第 16 章 我 们 会 详细 考虑 更 一 般 的 应 
用 问题 。 这 里 讨论 的 算法 简化 版 本 不 仅 体现 了 算法 设计 与 分 析 的 诸多 重点 问题 ， 而 且 还 有 许 
多 直接 应 用 。 

例如 ， 我 们 想像 一 个 信用 卡 公司 有 N 张 信誉 有 问题 或 被 盗 的 信用 卡 ， 希 望 检查 M 个 给 出 的 
事务 是 否 与 这 N 张 有 问题 的 信用 卡 有 关 。 为 了 具体 ， 我 们 可 以 假设 N 和 MM 都 很 大 ，N 为 10”~10， 
1 为 10%-10?。 分 析 的 目标 是 当 参数 在 这 些 范围 内 时 ， 能 够 估计 算法 的 运行 时 间 。 

程序 2.1 实 现 了 搜索 问题 的 直接 求解 过 程 。 为 了 与 第 4 部 分 讨论 的 同一 问题 的 代码 兼容 ， 我 
们 把 它 打包 为 操作 在 数组 (定义 见 第 3 章 ) 上 的 C 函 数 ， 不 需要 理解 打包 的 详细 过 程 就 可 以 理 
解 这 个 算法 ， 我们 把 所 有 对 象 存储 在 数组 中 ， 然 后 ， 对 于 每 次 事务 ， 只 要 从 头 到 尾 顺序 遍历 
整个 数组 ， 并 检查 每 个 元 素 ， 看 是 否 是 我 们 要 查找 的 对 象 。 

J 把 和 

这 个 函数 检查 数 v 是 否 在 一 个 事先 存储 的 数 的 集合 a[1]，a[1+1]，…，a[r] 中 。 从 第 一 个 
元 素 开始 ， 顺 序 比较 每 个 元 素 。 如 果 到 达 未 尾 而 未 找到 所 要 找 的 数 ， 那 么 返回 值 为 1。 否则 ， 
返回 这 个 数 所 在 数组 位 置 处 的 下 标 。 


int search(int a[], int v, int 1, int r) 


{ int i; 
for (i = 1]; i <= r; i++) 
if (v == a[i]) return i; 
return -1; 


} 


为 了 对 算法 加 以 分 析 ， 我 们 注意 到 算法 的 运行 时 间 与 要 搜索 的 对 象 是 否 在 数组 中 有 关 。 
我 们 在 检查 完 N 个 对 象 之 后 才 可 以 确定 搜索 是 否 成 功 ， 但 是 成 功 的 搜索 可 能 在 第 一 个 、 第 二 个 
或 任意 一 个 对 象 上 结束 。 

由 此 可 见 ， 算 法 的 运行 时 间 依 赖 于 数据 。 如 果 所 查找 的 数 恰好 在 数组 中 的 第 一 个 位 置 ， 
那么 算 靶 会 很 快 。 如 果 算 法 所 查找 的 数 恰 好 位 于 数组 中 的 最 后 一 个 位 置 ， 就 会 很 慢 。 在 2.7 节 
中 我 们 讨论 保证 性 能 和 预测 性 能 之 间 的 区 别 。 在 这 种 情况 下 ， 我 们 所 能 提供 的 最 好 保证 就 是 
至 多 只 须 检查 和 N 个 数 。 

然而 ， 为 了 预测 算法 的 性 能 ， 我 们 需要 关于 数据 的 假设 。 在 这 种 情况 下 ， 我 们 可 以 假设 
所 有 的 数 都 是 随机 选择 的 。 这 个 假设 蕴含 着 表 中 的 每 个 数 以 等 概率 地 为 搜索 的 那个 对 象 。 另 
一 方面 ， 我 们 认识 到 搜索 的 性 质 也 会 很 关键 ， 这 是 因为 对 于 随机 选择 的 数 ， 我 们 可 能 根本 没 
有 成 功 的 搜索 ( 见 练习 2.48)。 对 于 某 些 应 用 问题 ， 成 功 搜索 的 事务 的 数 可 能 很 大 ， 而 对 于 男 
一 些 应 用 ， 成 功 搜 索 的 数 可 能 很 小 。 为 了 避免 模型 与 应 用 的 性 质 相 混淆 ， 我 们 分 两 种 情况 
(成 功 搜索 和 不 成 功 搜索 ) 独立 对 它们 进行 分 析 。 这 个 例子 说 明 ， 高 效 分 析 的 关键 部 分 是 建立 
应 用 的 一 个 合理 模型 。 我 们 的 分 析 结 果 会 依赖 成 功 搜索 所 占 的 比例 ， 事 实 上 ， 如 果 我 们 基于 
这 个 参数 为 不 同 的 应 用 选取 不 同 的 算法 ， 就 会 得 到 所 需 的 信息 。 

性 质 2.1 顺序 搜索 对 于 每 次 不 成 功 的 搜索 需要 检查 N 个 数 ， 对 成 功 搜索 平均 检查 约 N/2 个 数 。 

如 果 表 中 的 每 个 数 等 概率 成 为 搜索 的 对 象 ， 那 么 ， 一 次 搜索 的 平均 开销 为 

(1+2+…+NIN=(NW+1)/2 [| 


性 质 2.1 蕴 含 着 程序 2.1 的 运行 时 间 与 N 成 正比 ， 满 足 比 较 两 个 数 的 平均 开销 为 常数 的 假设 。 因 
此 ， 如 果 我 们 是 对 象 数目 加 倍 ， 可 以 预期 一 次 搜索 所 需 的 时 间 也 会 加 倍 。 
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如果 使 表 中 的 数 有 序 ， 我 们 可 以 加 快 不 成 功 搜索 时 的 顺序 搜索 时 间 。 对 表 中 的 数 进行 排 
序 将 在 第 6 章 至 第 11 章 中 讨论 。 我 们 考虑 的 许多 算法 完成 任务 所 需 时 间 与 O(N log 和 N) 成 正比 ， 
与 当 M 很 大 时 搜索 的 开销 相 比 ， 这 个 时 间 是 微不足道 的 。 在 有 序 表 中 ， 当 找到 一 个 大 于 我 们 
要 找 的 那个 数 时 ， 可 以 立即 终止 搜索 。 这 种 改变 能 使 顺序 搜索 的 开销 降低 到 每 次 不 成 功 搜 索 
检查 的 N/2 个 数 ， 这 和 成 功 搜索 的 开销 相同 。 

性 质 2.2 在 有 序 表 中 进行 顺序 搜索 最 坏 情况 下 每 次 搜索 需要 检查 N 个 数 ， 平 均 情况 下 每 
次 搜索 需要 检查 大 约 N/2 个 数 。 


我 们 还 需要 为 不 成 功 搜索 确定 一 个 模型 。 假 1 
设 搜索 等 概率 地 终止 于 表 中 入 个 元 素 定 义 的 1973 
N +1 个 区 间 上 ， 可 直接 得 到 如 下 结果 : 056 
(1 +2+% +N+N/N= (N+ 3)/2 5435 5435 5435 5435 
因而 可 得 不 成 功 搜索 无 论 在 表 中 第 N 个 元 素 之 前 6339 6399 5446 
还 是 之 后 结束 ， 其 开销 都 为 N。 | 6385 6385 


另 一 种 关于 性 质 2.2 的 阐述 是 顺序 搜索 的 运 55 455 
行 时 间 在 平均 情况 和 最 坏 情 况 都 与 MN 成 正比 ， 
其 中 M 为 事务 数 。 如 果 我 们 使 事务 数 加 倍 或 者 使 
表 中 对 象 数 加 倍 ， 那 么 可 以 得 出 期 望 的 运行 时 
间 也 加 倍 ， 如 果 我 们 对 这 两 者 都 加 倍 ， 则 运行 
时 间 是 原来 的 4 倍 。 结 果 同 样 告诉 我 们 这 种 方法 
不 适合 于 较 大 的 表 。 如 果 检 查 单个 数 需要 < 微妙， 
那么 对 于 M = 10 和 N = 105， 处 理 所 有 事务 所 需 
的 运行 时 间 至 少 为 Co/2)10? 秒 ， 或 者 根据 图 2-1， 





大 约 为 16c 年 ， 这 是 不 可 接受 的 。 图 2-7 一 分 搜索 
程序 2.2 是 搜索 问题 的 一 种 经 典 解法 ， 它 要 。 注 : 要 知道 5025 是 否 在 左边 的 数 表 中 ， 我 们 首先 把 它 
比 顺 序 搜索 更 高 效 它 是 基于 这 样 一 种 思想 与 6504 比 较 ， 然 后 根据 比较 结果 ， 只 需 考 虑 数组 


和 的 前 站 部 分 。 接 着 与 4548 (数组 前 半 部 分 的 中 间 
如 果 表 中 的 数 是 有 序 的 ， 通 过 把 待 查找 的 数 与 元 素 ) 比较 ， 再 考虑 数组 前 六部 分 的 后 半 部 分 。 


表 的 中 间 位 置 的 数 进行 比较 ， 可 以 去 掉 表 中 一 继续 这 一 过 程 ， 如 果 待 查找 的 数 在 表 中 ， 则 总 是 
半 的 数 : 如果 比较 结果 相等 ， 则 查找 成 功 ， 如 。。” 在 色 仿 竺 查找 数 的 子 数组 上 进行 查找 。 最后， 匠 
果 比 中 间 位 置 的 元 素 小 ， 则 在 表 的 左边 应 用 相 。。 人 全 5026 各 环 中 人， 个 不 来 不 是 
同 的 方法 ， 如 果 比 中 间 位 置 的 元 素 大 ， 则 在 表 

的 右边 应 用 相同 的 方法 。 图 2-7 用 一 个 数 的 样本 集合 给 出 了 这 种 方法 的 一 个 例子 。 


， 程序 2.2， 二 分 搜索 算法 
这 个 程序 的 作用 与 程序 2.1 的 作用 相同 ， 但 更 高 效 。 


int search(int a[] ，int v, int 1, int r) 
{ 
while (r >= 1) 
{ int m = (1+r)/2:; 


if (v == a[m]) return m; 
if (v < afm]) r = m-1; else 1 = mt1; 
} 
return -1; 


} 


OO 
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性 质 2.3 二 分 搜索 至 多 检查 [lg 入 ] +1 个 数 。 

这 个 性 质 的 证 明说 明了 在 算法 分 析 中 使 用 的 递归 关系 。 如 果 我 们 令 Tw 表示 最 坏 情况 下 二 
分 搜索 所 需 的 比较 次 数 ， 那 么 算法 在 规模 为 N 的 表 中 的 搜索 可 以 减少 到 在 表 中 一 半 元 素 中 进行 
搜索 ， 这 表明 | 

Ty< Tivis +1, N>2, 有 T=1, 


在 规模 为 N 的 表 中 进行 搜索 ， 首 先 检查 中 间 元 素 ， 然 后 在 规模 至 多 为 LN/2] 的 表 中 搜索 。 实 际 
的 开销 可 能 会 比 这 个 值 要 小 ， 因 为 比较 过 程 可 能 会 结束 于 成 功 搜索 ， 或 者 待 搜索 表 的 规模 小 
于 LN/24-1 (如 果 N 为 偶数 ) 时 结束 。 类 似 公式 2.2 的 求解 过 程 ， 我 们 可 以 直接 证 明 ， 当 N = 2 
时 ，Ty <n+ 1， 然 后 用 归纳 法 验证 一 般 结论 。 加 

性 质 2.3 使 我 们 可 以 求解 问题 规模 达到 一 百 万 的 大 型 搜索 问题 ， 处 理 每 次 事务 只 需 20 次 比 
较 ， 很 可 能 比 在 许多 计算 机 上 读 写 数 的 时 间 还 少 。 搜 索 问 题 是 如 此 重要 ， 以 至 于 人 们 研制 了 
儿 种 比 二 分 搜索 更 快 的 算法 ， 我 们 将 在 第 12 章 至 第 16 章 看 到 这 些 算法 。 

注意 我 们 用 对 数据 使 用 的 常用 操作 表示 性 质 2.1 和 性 质 2.2。 如 在 性 质 2.1 之 后 所 做 的 解释 ， 
我 们 期 望 每 个 操作 花费 常数 时 间 ， 从 而 可 以 得 出 结论 ， 二 分 搜索 的 运行 时 间 与 lg 成 正比 ， 而 
顺序 搜索 与 M 成 正比 。 当 N 加 倍 时 ， 二 分 搜索 算法 的 运行 时 间 几 乎 不 变 ， 而 顺序 搜索 算法 的 运 
行 时 间 加 倍 。 随 着 N 的 增长 ， 这 两 个 方法 之 间 的 差距 越 来 越 大 。 

我 们 可 以 实现 并 测试 这 些 算法 来 验证 性 质 2.1 和 性 质 2.2 的 分 析 结果 。 例 如 ， 表 2-4 显 示 了 
对 于 各 种 M 和 N 的 值 ， 二 分 搜索 算法 和 顺序 搜索 算法 对 规模 为 的 表 进 行 M 次 搜索 的 运行 时 间 
(包括 二 分 搜索 算法 所 需 的 对 表 进行 排序 的 开销 ) 。 我 们 将 不 讨论 程序 运行 的 具体 实现 的 细节 ， 
因为 这 些 将 会 在 第 6 章 至 第 11 章 进行 全 面 详细 的 讨论 。 这 里 我 们 考虑 库 及 外 部 函数 的 调用 ， 以 
及 其 他 把 各 模块 组 合成 程序 的 细节 ， 还 包括 第 3 章 中 讨论 的 sort 函数。 我 们 暂时 只 强调 进行 经 
验 测试 是 评价 算法 效率 的 一 部 分 。 


表 2-4 顺序 搜索 和 二 分 搜索 算法 的 经 验 分 析 


这 些 相对 时 间 验 证 了 我 们 的 分 析 结 果 ， 在 规模 为 N 个 对 象 的 表 中 进行 W 次 搜索 ， 顺 序 搜索 的 时 间 与 MN 成 正比 ， 
二 分 搜索 的 时 间 与 M lg N 成 正比 。 当 MM 增加 一 倍 时 ， 上 顺序 搜索 的 时 间 也 增加 一 倍 ， 但 二 分 搜索 几乎 不 变 。 当 M 较 大 时 ， 
随 着 N 的 增加 ， 顺 序 搜索 不 可 行 ， 而 二 分 搜索 即使 对 于 较 大 的 表 也 很 快 。 


M= 1 000 M =10 000 M = 100 000 

™ S B S B S B 

125 1 1 13 2 130 20 

250 3 0 25 2 251 22 

500 5 0 49 3 492 23 

1250 13 0 128 3 1276 25 

2 500 26 1 267 3 28 

5 000 53 0 533 3 30 

12 500 134 1 1 337 3 33 

25 000 268 1 3 35 

50 000 537 0 4 39 

100 000 1269 1 5 47 

其 中 : 

S 顺序 搜索 (程序 2.1) 


B 二 分 搜索 (程序 2.2) 
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表 2-4 证 实 了 我 们 的 观察 ， 运 行 时 间 的 函数 式 增长 可 使 我 们 根据 小 规模 的 经 验 分 析 预 测 较 
大 规模 时 的 算法 的 性 能 。 把 数学 分 析 与 经 验 分 析 结 合 在 一 起 为 二 分 搜索 算法 是 首选 算法 的 定 
论 提供 了 令 人 信服 的 证 据 。 

这 个 例子 是 比较 算法 所 用 的 一 般 方法 的 一 个 示例 。 我 们 利用 数学 分 析 方法 找 出 算法 执行 
关键 抽象 操作 的 频率 ， 然 后 利用 这 些 结果 导出 运行 时 间 的 函数 式 ， 最 后 验证 并 扩展 经 验 分 析 
结果 。 随 着 计算 问题 的 算法 学 解 越 来 越 细 致 ， 以 及 探究 其 性 能 特征 的 数学 分 析 也 越 来 越 复杂 ， 
我 们 利用 文献 中 的 已 有 数学 结果 ， 以 便 将 注意 力 集中 在 算法 本 身 。 我 们 并 不 对 遇 到 的 每 个 算 
法 都 进行 完整 的 数学 和 经 验 分 析 ， 但 我 们 会 努力 确定 算法 的 性 能 特征 ， 并 在 理论 上 知道 ， 我 
们 可 以 在 关键 的 应 用 问题 上 通过 科学 分 析 做 出 有 益 的 选择 。 
练习 
>2.47 假设 有 awN 次 查找 是 成 功 的 ， 给 出 程序 2.1 中 所 用 的 平均 比较 次 数 ， 其 中 0 和 as 1。 

"%2.48 估计 M 个 随机 10 位 数 至 少 匹配 给 定 N 个 值 的 集合 的 概率 ， 其 中 M = 10，100 和 1000，N = 
103，104，105 和 106。 

2.49 ” 写 一 个 产生 M 个 随机 整数 并 把 它们 存 入 数组 中 的 驱动 程序 ， 然 后 利用 顺序 搜索 统计 NN 个 
随机 整数 匹配 数组 中 元 素 的 个 数 。 对 于 M = 10，100 和 1000，N = 10，100 和 1000 运 行 你 的 程序 。 
。2.50 ”类似 性 质 2.3， 闸 述 并 证 明 二 分 搜索 算法 的 性 质 。 


2.7 保证、 预测 及 局 限 性 


大 多 数 算法 的 运行 时 间 与 输入 数据 有 关 。 典 型 地 ， 算 法 分 析 的 目标 是 消除 这 个 相关 性 : 
我 们 希望 能 够 说 程序 的 性 能 尽 可 能 少 地 依赖 于 输入 数据 ， 这 是 因为 我 们 一 般 并 不 知道 每 次 调 
用 程序 时 会 是 哪些 输入 数据 。2.6 节 的 例子 说 明了 我 们 最 常用 的 两 种 主要 方法 ， 最 坏 情 况 分 析 
和 平均 情况 分 析 。 

研究 算法 的 最 坏 情况 下 的 性 能 很 有 意义 。 因 为 这 样 可 以 对 程序 的 运行 时 间 做 出 保证 。 我 
们 说 执行 某 种 抽象 操作 的 次 数 小 于 输入 规模 的 某 个 函数 ， 不 论 输 入 什么 数据 。 例 如 ， 性 质 2.3 
是 对 二 分 搜索 做 出 保证 的 一 个 例子 ， 类 似 性 质 1.3 是 加 权 快 速 合并 的 一 个 例子 。 如 果 像 二 分 搜 
索 一 样 ， 保 证 的 量 较 小 ， 那 么 我 们 处 于 有 利 的 情形 ， 因 为 我 们 知道 我 们 的 程序 不 会 运行 得 太 
慢 。 有 具有 最 坏 情 况 下 良好 性 能 特征 的 程序 是 算法 设计 的 一 个 基本 目标 。 

然而 ， 进 行 最 坏 情况 下 的 分 析 存 在 一 些 困难 。 对 于 给 定 的 一 个 算法 ， 在 求解 最 坏 情 况 下 
的 输入 实例 所 需 的 时 间 与 求解 实际 中 可 能 遇见 的 数据 所 需 时 间 之 间 存 在 很 大 的 差距 。 例 如 ， 
在 实际 中 快速 合并 算法 所 需 时 间 与 N 成 正比 ， 但 对 某 类 数据 ， 其 所 需 时 间 与 og N 成 正比 。 更 
重要 的 是 ， 我 们 并 不 总 能 证 明 存在 输入 使 算法 的 运行 时 间 达 到 这 个 界限 ， 我 们 只 能 证 明 那 是 
一 个 有 保证 的 上 界 。 此 外 ， 对 于 某 些 问题 ， 具 有 较 好 最 坏 情 况 性 能 的 算法 要 比 其 他 一 些 算法 
复杂 得 多 。 我 们 常常 会 发 现 自 己 有 个 较 好 的 最 坏 情 况 性 能 的 算法 ， 要 比 输入 为 实际 数据 的 简 
单 算法 要 慢 ， 或 者 说 与 达到 较 好 或 最 坏 情况 性 能 所 付出 的 努力 相 比 ， 还 不 是 足够 快 。 对 于 许 
多 应 用 问题 ， 还 要 考虑 其 他 一 些 因素 ， 比 如 说 可 移植 性 和 可 靠 性 ， 这 些 因素 要 比 改进 最 坏 情 
况 性 能 保证 更 为 重要 。 例 如 ， 在 第 1 章 中 我 们 看 到 ， 带 有 路 径 压 缩 的 加 权 快 速 合并 算法 比 加 权 
快速 合并 算法 具有 更 好 的 性 能 保证 ， 但 是 对 一 般 实际 数据 ， 这 两 个 算法 的 运行 时 间 相 同 。 

研究 算法 的 平均 情况 下 的 性 能 也 有 意义 ， 因 为 它 能 使 我 们 预测 程序 的 运行 时 间 。 在 最 简 
单 的 情形 , 我 们 可 以 精确 表征 算法 的 输入 ， 例 如 , 排序 算法 可 能 处 理 N 个 随机 整数 组 成 的 数组 ， 
而 几何 算法 可 能 处 理 平 面 上 坐标 位 于 0 和 1 之 间 的 N 个 点 集 。 然 后 ， 我 们 可 以 计算 执行 每 条 指令 
的 平均 次 数 ， 并 将 每 条 指令 出 现 的 频率 与 执行 那 条 指令 所 需 时 间 相 乘 ， 并 求 出 总 和 作为 程序 
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的 平均 运行 时 间 。 

然而 ， 进 行 平均 情况 分 析 同 样 存在 一 些 困 难 。 第 一 ， 输 入 模型 可 能 没有 精确 地 表征 实际 
中 遇 到 的 输入 ， 也 可 能 就 没有 自然 的 输入 模型 。 很 少 人 会 质疑 排序 算法 所 使 用 的 “随机 有 序 
文件 ， 或 几何 算法 使 用 的 “随机 点 集 ” 的 输入 模型 。 这 些 模型 导出 的 数学 结果 可 以 精确 地 预 
测 程序 运行 在 实际 应 用 问题 上 的 性 能 。 但 我 们 如 何 表征 处 理 英 语 语言 文本 的 程序 的 输入 呢 ? 
即使 对 于 排序 算法 ， 除 了 输入 为 随机 有 序 的 ， 某 些 应 用 中 还 有 其 他 形式 的 模型 也 有 意义 。 第 
二 , 分 析 可 能 需要 深奥 的 数学 推理 。 例 如 ， 合 并 一 查找 算法 的 平均 情况 分 析 很 困难 。 尽 管 推 
导 这 些 结果 通常 超出 本 书 范围 ， 我 们 会 用 大 量 经 典 例子 说 明 它们 的 本 质 。 在 合适 时 会 引用 相 
关 结 果 (幸运 的 是 ， 很 多 最 好 的 算法 已 在 科学 文献 中 做 了 分 析 )。 第 三 ， 知 道 运行 时 间 的 平均 
值 还 是 不 够 的 : 我 们 可 能 还 需要 知道 运行 时 间 分 布 的 标准 方差 或 其 他 事实 ， 这 些 可 能 更 难以 
推出 。 特 别 是 ， 我 们 希望 知道 算法 比 预期 结果 急剧 变 慢 的 可 能 性 。 

在 许多 情况 下 ， 我 们 可 以 利用 随机 性 的 优点 回答 上 一 段 中 提出 的 第 一 个 问题 。 例 如 ， 如 
果 我 们 在 对 数组 排序 之 前 随机 生成 一 个 数组 ， 那 么 关于 数组 中 元 素 是 随机 的 假设 是 正确 的 。 
这 类 算法 称 为 随机 化 算法 ， 平 均 情况 分 析 是 在 严格 概率 意义 下 对 期 望 运行 时 间 的 预测 。 此 外 ， 
我 们 常常 可 以 证 明 这 样 的 算法 变 慢 的 概率 小 得 可 以 忽略 。 这 种 算法 的 例子 有 快速 排序 ( 见 第 
10 章 )、 随 机 化 BST ( 见 第 13 章 ) 和 散 列 〈 见 第 14 章 ) 。 

计 工 复杂 度 领 域 是 算法 分 析 的 一 个 分 支 ， 它 帮助 我 们 理解 设计 算法 时 可 能 期 望 遇 到 的 基 
本 限制 。 总 目标 是 确定 给 定 问题 的 最 佳 算法 在 最 坏 情 况 下 的 运行 时 间 ， 误 差 不 超 过 一 个 常数 
因子 。 这 个 函数 称 为 问题 的 复杂 度 。 

利用 大 0 符号 进行 最 坏 情况 分 析 可 以 不 需 考 虑 特定 机 器 特征 的 细节 。 一 个 算法 的 运行 时 间 
为 ON))， 它 不 依赖 于 输入 ， 而 且 这 是 一 种 对 算法 分 类 的 高 效 方法 ， 这 种 方法 既 不 依赖 于 输 
入 ， 也 不 依赖 于 实现 细节 ， 它 将 算法 分 析 从 实现 细节 中 分 离 出 来 。 我 们 忽略 了 分 析 中 的 常数 
因子 ， 在 大 多 数 情况 下 ， 我 们 想 要 知道 算法 的 运行 时 间 是 否 与 N 成 正比 ， 或 者 与 log N 成 正比 ， 
而 不 关心 算法 是 在 纳米 计算 机 上 运行 还 是 在 超级 计算 机 上 运行 ， 也 不 关心 内 循环 是 否 只 用 几 
条 指令 实现 ， 还 是 用 大 量 指令 实现 。 

如 果 我 们 可 以 证 明 求 解 某 个 问题 的 算法 的 最 坏 情 况 下 的 运行 时 间 是 ON))， 则 称 有 和 ND) 是 这 
个 问题 复杂 度 的 一 个 上 界 。 换 句 话 说， 求解 一 个 问题 的 最 佳 算法 的 运行 时 间 不 会 超过 求解 这 
个 问题 的 某 个 算法 的 运行 时 间 。 

我 们 一 直 努 力 改进 我 们 的 算法 ， 但 最 终 会 到 达 一 点 ， 任 何 改变 都 不 能 够 再 改进 算法 的 运 
行 时 间 。 对 于 每 个 给 定 的 问题 ， 我 们 对 何 时 不 再 做 算法 改进 感 兴趣 ， 因 而 我 们 寻求 复杂 度 的 
下 界 。 对 于 许多 问题 ， 我 们 可 以 证 明 求解 问题 的 任何 算法 必定 利用 了 一 定数 量 的 基本 操作 。 
证 明 下 界 是 一 件 困 难 的 事情 ， 需 要 仔细 构造 一 个 机 器 模型 ， 然 后 在 此 模型 上 构造 输入 的 理论 
模型 ， 这 对 于 求解 的 任何 算法 都 是 困难 的 。 我 们 很 少 遇 到 证 明 下 界 的 主题 ， 但 它们 表示 计算 
的 障碍 ， 在 算法 设计 中 起 着 导向 作用 。 因 而 当 涉 及 这 些 概念 时 我 们 应 该 认识 到 这 一 点 。 

当 复杂 度 研究 得 出 算法 的 上 界 与 下 界 匹配 时 ， 那 么 我 们 可 以 确信 试图 设计 比 已 知 最 好 算 
法 更 快 的 算法 是 徒劳 无 益 的 ， 我 们 可 以 开始 把 注意 力 放 在 实现 上 。 例 如 ， 二 分 搜索 是 最 优 的 ， 
是 因为 没有 算法 (只 利用 比较 操作 ) 在 最 坏 情 况 下 能 比 二 分 搜索 算法 所 用 的 比较 次 数 更 少 。 

另外 ， 基 于 指针 的 合并 一 查找 算法 的 上 界 和 下 界 也 匹配 了 。Tarjan 在 1975 年 证 明了 带 有 路 
径 压 缩 的 加 权 快速 合并 算法 最 坏 情 况 下 要 求 跟踪 的 指针 数 少 于 OUg* V)， 并 且 任 何 基于 指针 的 
算法 对 于 特定 输入 ， 必 定 在 最 坏 情 况 下 至 少 跟踪 常数 个 指针 。 换 句 话 说， 没有 一 种 方法 所 做 
的 改进 会 保证 在 线性 个 操作 数 i = ai 内 求解 问题 。 在 实际 中 ， 这 种 差别 并 不 显著 ， 因 为 lg* V 
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很 小 ， 而 且 找 这 个 问题 的 线性 算法 是 多 年 来 的 一 个 研究 目标 ，Tarjan 给 出 的 下 界 已 经 使 科学 家 
放弃 了 这 个 问题 的 研究 。 此 外 ， 这 个 故事 也 说 明 不 能 避 开 像 log * 这 样 的 复杂 函数 ， 因 为 这 样 
的 函数 是 这 个 问题 的 本 质 所 在 。 

本 书 中 的 许多 算法 涉及 复杂 的 数学 分 析 和 性 能 评价 ， 由 于 过 于 复杂 在 这 里 不 做 讨论 。 实 
际 上 ， 正 是 这 些 研究 的 基础 ， 我 们 才 得 以 推荐 这 里 学 习 的 许多 算法 。 

并 不 是 所 有 算法 都 值得 这 样 认真 研究 ， 事实 上 ， 在 设计 过 程 中 ， 人 们 更 喜欢 用 一 些 近 似 
性 能 指导 设计 过 程 ， 从 而 避免 无 关 细节 。 随 着 设计 变 得 复杂 ， 分 析 也 会 变 得 复杂 ， 就 要 用 到 
更 复杂 的 数学 工具 。 很 多 时 候 ， 设 计 过 程 会 导致 深入 的 复杂 性 研究 ， 最 终 导致 的 理论 算法 偏 
离 实 际 应 用 。 一 个 常见 错误 是 认为 对 复杂 度 进行 粗略 分 析 就 能 直接 得 到 高 效 实用 的 算法 ， 这 
样 的 想法 可 能 会 带 来 令 人 不 愉快 的 惊讶 。 另 一 方面 ， 计 算 复杂 度 是 一 种 强 有 力 的 工具 ， 它 告 
诉 我 们 在 设计 工作 中 何 时 达到 性 能 的 极限 ， 以 使 我 们 不 再 设计 算法 来 缩小 上 界 和 下 界 之 间 的 
差距 。 

本 书 的 观点 是 : 算法 设计 、 仔 细 实 现 、 数 学 分 析 、 理 论 研究 ， 以 及 经 验 分 析 都 对 开发 优 
美 而 高 效 的 程序 起 着 重要 作用 。 我 们 希望 利用 已 有 工具 获得 我 们 程序 性 质 的 信息 ， 然 后 利用 
这 些 信 息 改进 程序 或 开发 新 程序 。 我 们 不 能 对 运行 在 每 台 计 算 机 上 每 种 环境 中 的 每 个 算法 进 
行 穷尽 测试 和 分 析 ， 但 我 们 可 以 认真 实现 已 知 是 高 效 的 算法 ， 并 在 需要 峰值 性 能 时 优化 和 上 比 
较 它 们 。 贯 穿 本 书 ， 在 必要 的 时 候 我 们 会 考虑 最 重要 的 方法 的 详细 细节 ， 以 理解 为 什么 它们 
有 如 此 好 的 性 能 。 


练习 


02.51 已 知 一 个 问题 的 时 间 复 杂 度 为 N log N， 另 一 个 问题 的 时 间 复 杂 度 为 VW。 有 两 个 确定 算 
法 求解 这 两 个 问题 。 这 种 阐述 草 含 这 两 个 算法 的 相对 性 能 如 何 ? 
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第 3 章 基本 数据 结构 


组 织 数据 用 于 处 理 是 开发 程序 的 一 个 基本 步骤 。 对 于 许多 应 用 ， 选 择 合适 的 数据 结构 是 
其 实现 中 涉及 的 惟一 主要 决定 : 一 旦 做 出 选择 ， 所 需 的 算法 就 很 简单 。 对 于 同样 的 数据 ， 某 
些 数据 结构 要 比 其 他 数据 结构 需要 更 多 或 更 少 的 空间 。 对 于 作用 在 数据 上 的 相同 操作 ， 某 些 
数据 结构 导致 的 算法 要 比 其 他 数据 结构 产生 的 算法 更 高 效 或 更 低 效 。 选 择 算 法 和 数据 结构 是 
紧密 交织 在 一 起 的 ， 我 们 会 通过 正确 的 选择 继续 寻求 节省 时 间或 空间 的 方法 。 

数据 结构 不 是 一 个 被 动 的 对 象 ， 我 们 还 必须 考虑 在 其 上 进行 的 操作 (以 及 这 些 操 作 所 用 
的 算法 ) 。 这 个 概念 可 以 形式 化 为 数据 类 型 (data type)。 在 这 一 章 里 ， 主 要 关注 结构 数据 上 
所 用 基本 方法 的 具体 实现 。 我 们 讨论 组 织 和 操纵 数据 的 基本 方法 ， 并 通过 大 量 特定 例子 说 明 
每 种 方法 的 优点 ， 讨 论 诸 如 存储 管理 有 关 的 问题 。 第 4 章 讨论 抽 条 数据 类 型 ， 其 中 把 数据 类 型 
从 实现 中 分 离 出 来 。 

我 们 讨论 数组 、 链 表 和 串 的 性 质 。 这 些 经 典 数据 结构 应 用 广泛 。 它 们 和 第 5 章 的 树 结 构 是 
书 中 所 讨论 的 几乎 所 有 算法 的 基础 。 我 们 还 将 讨论 作用 在 这 些 数据 结构 上 的 各 种 基本 操作 ， 
以 便 开 发 一 组 工具 用 于 研制 困难 问题 的 复杂 算法 。 

要 研究 如 何 把 数据 存 为 变 长 大 小 的 对 象 和 用 链表 数据 结构 存储 数据 ， 就 需要 对 系统 如 何 
给 程序 分 配 存储 数据 的 空间 的 管理 进行 深入 理解 。 这 里 将 不 会 详细 介绍 这 个 主题 ， 因 为 许多 
重要 因素 是 与 系统 和 机 器 有 关 的 。 然 而 ， 我 们 会 讨论 存储 管理 的 方法 ， 以 及 几 种 基本 的 重要 
机 制 。 我 们 还 会 讨论 一 些 特定 (程序 化 ) 的 方式 ， 其 中 程序 中 使 用 C 语 言 的 存储 一 分 配 机 制 。 

本 章 最 后 讨论 几 个 关于 复合 结构 (compound structure) 的 例子 ， 包 括 链 表 数 组 和 多 维 数 
组 。 从 较 低 级 的 数据 结构 构造 更 加 复杂 抽象 的 数据 结构 是 一 个 不 断 重 现 的 贯穿 本 书 的 主题 。 
我 们 将 讨论 大 量 例子 ， 它 们 是 本 书 稍 后 讨论 的 更 多 高 级 算法 的 基础 。 

这 一 章 中 讨论 的 数据 结构 是 重要 的 组 件 ， 它 们 可 以 很 自然 地 应 用 到 C 语 言 和 其 他 许多 程序 
设计 语言 中 。 第 5 章 讨 论 另 一 种 重要 的 数据 结构 一 一 树 (tree)。 数 组 、 字 符 串 、 链 表 和 树 是 本 
书 中 讨论 的 大 多 数 基础 算法 的 基本 元 素 。 第 4 章 讨论 用 基本 组 件 抽 象 数据 类 型 研究 的 具体 表示 
的 应 用 ， 这 些 表示 可 以 满足 大 多 数 应 用 的 需要 。 本 书 其 余部 分 利用 本 章 讨论 的 各 种 基本 工具 ， 
包括 树 和 抽象 数据 类 型 ， 以 构造 能 够 求解 更 困难 问题 的 算法 ， 这 些 算法 还 可 以 作为 各 种 应 用 
中 高 级 抽象 数据 类 型 的 基础 。 


3.1 构建 组 件 


这 一 节 我 们 主要 回顾 C 语 言 中 存储 信息 和 处 理 信 息 所 用 的 低级 结构 。 在 计算 机 上 处 理 的 所 
有 数据 最 终 都 分 解 到 单个 位 ， 而 编写 只 处 理 位 的 程序 令 人 烦恼 不 堪 。 类 型 允许 我 们 指定 如 何 
利用 特定 位 的 各 种 集合 ， 函 数 人 允许 我 们 指定 在 数据 上 所 进行 的 操作 。 利 用 C 结 构 (structure) 
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类 型 把 各 种 不 同类 型 的 信息 集成 在 一 起 ， 并 利用 指针 (pointer) 间接 引用 这 些 信息 。 在 这 一 节 
里 ， 我 们 讨论 这 些 C 语 言 中 的 基本 机 制 ， 并 提出 组 织 程序 的 一 般 方法 。 主 要 目标 是 为 本 章 其 余 
部 分 以 及 第 4 章 和 第 5 章 黄 定 基 础 ， 以 便 开 发 出 用 作 本 书 讨论 的 大 部 分 算法 的 基础 的 高 级 结构 。 

我 们 从 对 生活 中 事物 的 数学 描述 或 者 自然 语言 描述 ， 编 写 处 理 信息 的 程序 ， 因 此 ， 计 算 
环境 要 对 这 些 描述 的 基本 组 件 提供 内 置 支持 ， 包 括 对 数 和 字符 的 支持 。 在 C 语 言 中 ， 我 们 的 程 
序 都 是 由 几 种 基本 数据 类 型 构建 的 ; 

。 整 数 (ints) 

。 浮 点 数 (floats) 

。 字 符 (chars) 

尽管 常常 用 整数 、 浮 点 数 和 字符 称呼 这 些 类 型 ， 但 还 是 按照 它们 在 C 语 言 中 的 名 字 称 为 
int、f1oat 和 char。 字 符 在 高 级 抽象 中 最 常 使 用 ， 例 如 造 字 和 造句 。 因 而 我 们 在 3.6 节 再 讨论 
字符 ， 这 里 先 讨 论 数 。 

我 们 利用 固定 的 位 表示 数 。 所 以 int 类 型 的 整数 按照 需要 会 属于 某 个 特定 的 范围 ， 这 个 范 
围 依赖 于 我 们 用 来 表示 它们 的 位 数 。 浮 点 数 是 实际 数 的 近似 ， 它 们 的 位 数 用 来 表示 对 实际 数 
的 近似 精度 。 在 C 语 言 中 ， 如 果 是 整数 ， 可 以 选择 int 、1ong int 或 short int 型 的 整数 类 型 ， 
如 果 是 浮 点 数 ， 可 以 选择 fl0at 或 double ( 双 精 度 ) 型 ， 以 空间 换 精 度 。 在 多 数 系统 中 ， 这 些 
类 型 都 与 基本 的 硬件 表示 相对 应 。 尽 管 C 语 言 提高 了 一 定 的 保证 度 ， 但 用 于 表示 的 位 数 ， 以 及 
由 此 确定 的 值 的 范围 (针对 整数 而 言 ) 或 精度 (针对 浮 点 数 而 言 ) 是 依赖 于 机 器 的 (参阅 练 
习 3.1) 。 在 这 本 书 中 ， 除 非特 别 强调 讨论 的 问题 需要 使 用 大 数 ， 一 般 情 况 下 使 用 int 和 f1oat。 

在 现代 程序 设计 中 ， 我 们 更 多 都 是 根据 程序 的 需要 而 不 是 机 器 的 能 力 考虑 数据 的 类 型 ， 
这 主要 是 为 了 使 程序 具有 可 移植 性 。 因 此 ， 举 例 来 说 ， 我 们 把 short int 看 作 一 个 取 值 范围 介 
于 -32 768~32 767 之 间 的 对 象 ， 而 不 是 看 作 一 个 16 一 位 对 象 。 此 外 ， 我 们 关于 整数 的 概念 还 包 
括 在 其 上 执行 的 操作 : 加 法 、 乘 法 等 。 

定义 3.1 数据 类 型 是 值 的 集合 和 在 这 些 值 上 的 操作 集 。 

操作 关联 类 型 ， 反 之 则 不 成 立 。 当 我 们 执行 一 个 操作 时 ， 我 们 必须 确保 操作 数 和 结果 具 
有 正确 类 型 。 忽 略 这 一 点 是 程序 设计 的 常见 错误 。 在 某 些 情 况 下 ，C 语 言 程序 可 以 进行 隐 式 的 
类 型 转换 ， 而 在 其 他 一 些 情 况 下 ， 我 们 利用 显 式 的 类 型 转换 (cast)。 例 如 ， 如 果 x 和 N 是 整数 ， 
则 表达 式 

((float) x)/N 
中 包括 两 种 类 型 转换 : (float) 是 一 种 显 式 转换 ， 把 x 的 值 转换 为 浮 点 类 型 ， 接 着 用 C 语 言 中 
隐 式 类 型 转换 规则 对 N 进 行 隐 式 转换 ， 使 除法 操作 符 的 两 个 参数 都 变 成 浮 点 数 。 

许多 与 标准 数据 类 型 有 关 的 操作 已 内 置 在 C 语 言 中 。 例 如 算术 操作 。 其 他 一 些 操 作 则 定义 
为 函数 形式 ， 可 在 标准 函数 库 中 找到 ， 还 有 一 些 操作 以 C 函 数 的 形式 定义 在 我 们 的 程序 中 ( 见 
程序 3.1)。 也 就 是 说 ， 数 据 类 型 的 概念 不 局 限于 内 置 的 整数 、 浮 点 数 和 字符 类 型 。 作 为 一 种 
组 织 软 件 的 高 效 方式 ， 我 们 还 定义 自己 的 数据 类 型 。 当 定义 C 语 言 中 的 一 个 简单 函数 时 ， 就 高 
效 地 创造 了 一 种 新 的 数据 类 型 ， 其 中 函数 实现 的 操作 添加 到 用 该 函数 参数 表示 的 数据 类 型 所 
定义 的 操作 中 。 实 际 上 ， 每 个 C 程 序 在 某 种 意义 上 都 是 一 种 数据 类 型 ， 也 就 是 说 ， 是 数值 集合 
(内 置 类 型 或 其 他 类 型 ) 及 其 相关 操作 (函数) 的 一 个 列表 。 这 种 观点 也 许 太 广泛 而 没有 多 少 
实用 价值 ， 但 我 们 会 看 到 ， 如 果 根 据 数据 类 型 来 理解 程序 是 有 价值 的 。 
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A ， ， 程 序 3.1 阔 数 定义 

在 C 语 言 中 用 于 实现 对 数据 进行 新 操作 的 机 制 就 是 这 里 举例 说 明 的 函数 定义。 

所 有 函数 都 有 一 个 参数 列表 和 可 能 的 一 个 返回 值 。 这 里 的 19 函 数 有 一 个 参数 和 一 个 返回 
值 ， 它 们 的 类 型 都 为 int。main 函 数 既 没有 参数 也 没有 返回 值 。 

我 们 通过 给 出 函数 名 和 它 的 返回 值 类 型 来 声明 (declare) 那个 函数 。 代 码 的 第 一 行 引 用 
一 个 系统 文件 ， 其 中 包含 了 对 printf 这 样 的 系统 函数 的 声明 。 代 码 第 二 行 是 1g 函 数 的 声明 。 
如 果 国 数 在 使 用 之 前 已 经 定义 〈 见 下 一 段 )， 则 声明 可 省 略 。main 函 数 就 是 这 种 情况 。 这 个 声 
明 为 其 他 函数 利用 正确 类 型 的 参数 调用 该 函数 提供 了 所 需 信息 。 调 用 函数 可 在 表达 式 中 使 用 
被 调 函 数 ， 方 法 和 使 用 该 返回 值 类 型 的 变量 一 样 。 

我 们 可 用 C 代 码 定 义 函 数 。 所 有 C 程 序 都 包括 main 函 数 的 定义 。 这 个 代码 中 还 定义 了 19g 函 
数 。 在 函数 定义 中 ， 我 们 对 变量 命名 ( 称 为 参数 ) ， 并 根据 这 些 名 字 表 达 计 算 ， 把 它们 作为 局 
部 变量 看 待 。 当 调用 函数 时 ， 这 些 变量 初始 化 为 参数 传递 的 值 ， 接 着 执行 函数 代码 。return 
语句 是 函数 执行 结束 的 指令 ， 它 还 向 调用 国 数 返 回 值 。 原 则 上 ， 调用 函数 不 受 其 他 函数 的 影 
响 ， 但 我 们 将 会 看 到 许多 例外 的 情况 。 

定义 和 声明 的 分 开 为 组 织 程序 提供 了 灵活 性 。 例 如 ， 定 义 和 声 明 可 在 不 同文 件 中 〈 见 下 
文 ) 或 者 在 这 个 简单 程序 中 ， 我 们 可 以 把 1g 函 数 的 定义 放 在 main 函 数 的 定义 之 前 ， 并 省 略 19 
函数 的 声明 。 

#include <stdio.h> 

int lg(int); 

main() 

{ int i, N; 
for (i= 1, N= 10; i <= 6; i++, N *= 10) 
printf("%7d %2d %9d\n", N, lg(N), N+*lg(N)); 
} 
int lg(int N) 
{ int i; 
for (i=0; N> 0; itt+, N /= 2) ; 


return i; 


} 


在 写 程序 时 我 们 的 一 个 目标 是 组 织 程序 ， 以 使 它们 尽 可 能 广泛 用 于 各 种 情况 。 采 用 这 样 
一 个 目标 的 原因 是 ， 即 使 是 与 程序 原先 要 解决 的 问题 完全 无 关 ， 也 可 能 使 我 们 重用 旧 程 序 解 
决 新 问题 。 首 先 ， 通 过 仔细 了 解 和 准确 确定 程序 所 使 用 的 操作 ， 我 们 可 以 容易 地 把 它 扩 展 到 
支持 这 些 操作 的 任意 的 数据 类 型 上 。 其 次 ， 通 过 仔细 了 解 和 准确 确定 程序 的 作用 ， 我 们 可 以 
把 它 执行 的 抽象 操作 添加 到 求解 新 问题 所 用 的 操作 中 。 

程序 3.2 利 用 typedef 操 作 定义 的 简单 数据 类 型 和 一 个 函数 其 自身 也 由 库 函 数 实现 )， 实 
现 了 对 数 的 简单 计算 。 主 函数 引用 的 数据 类 型 ， 不 是 那个 数 的 内 置 数据 类 型 。 通 过 不 确定 程 
序 所 处 理 的 数 的 数据 类 型 ， 延 长 了 程序 的 潜在 可 用 性 。 例 如 ， 这 种 方法 就 可 能 延长 程序 的 使 
用 寿命 。 当 某 些 新 的 环境 要 求 提供 数 的 一 种 新 的 数据 类 型 才能 工作 时 ， 我 们 只 需 改 变 那 个 数 
据 类 型 来 更 新 程序 。 


程序 3.2 数字 类 型 al 


这 个 程序 按照 以 下 数学 ， 计 算 由 库 函 数 rand 产 生 的 整数 序列 x,，x,，…，、xn 的 平均 值 
4 和 标准 方差 0。 
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注意 ， 按 照 吕 的 定义 直接 实现 需要 一 遍 计算 平均 值 的 过 程 ， 以 及 一 遍 计 算 序 列 元 素 与 平均 值 
差 的 平方 和 的 过 程 。 但 化 简 公式 ， 可 使 我 们 在 一 遍 过 程 之 内 计算 出 中 。 

我 们 利用 typedef 声 明 使 对 数据 类 型 int 的 引用 局 部 人 化。 例如， 我 们 可 以 把 typedef 和 函数 
randNum 放 在 不 同 的 文件 〈 用 inc1ude 命 令 来 引用 ) 中 ， 然 后 我 们 可 以 通过 修改 这 个 文件 ， 利 
用 这 个 程序 测试 不 同类 型 的 随机 数 〈 见 正文 )。 

无 论 数 据 类 型 是 什么 ， 这 个 程序 中 使 用 int 类 型 作为 序列 元 素 的 下 标 ， 使 用 浮 点 数 计算 平 
均值 和 标准 方差 并且 只 在 该 数据 类 型 向 浮 点 数 的 转换 函数 以 合理 方式 进行 时 ， 这 个 程序 才 
高 效 。 

#include <math.h> 

#include <stdlib.h> 

#include <stdio.h> 

typedef int Number; 

Number randNum() 

{ return rand(); } 
main(int argc, char *argv[]) 
{ int i, N= atoi(argv[1]); 
float mi = 0.0, m2 = 0.0; 
Number x; 
for (i = 0; i < N; i++) 
{ 
x = randNum(); 
mi += ((float) x)/N; 
m2 += ((float) x*x)/N; 


} 
printf(" Average: %lf \n", m1):; 
printf ("Std. deviation: %lf\n", sqrt (m2-mi*m1)); 


} 


这 个 例子 并 不 能 说 明 关 于 开发 一 个 用 于 计算 平均 值 和 标准 方差 问题 的 ， 不 依赖 类 型 的 程 
序 的 一 个 完整 解决 方法 ， 也 不 能 表明 这 样 做 的 目的 。 例 如 ， 这 个 程序 在 计算 平均 值 和 方差 时 ， 
需要 把 类 型 为 Number 的 数 转换 成 fT1oat 类 型 ， 因 而 我 们 可 能 还 需要 增加 一 个 转换 到 那 种 数据 类 
型 的 操作 ， 而 不 是 依赖 于 (float) 显 式 类 型 转换 ， 因 为 它 只 对 数 的 内 置 类 型 高 效 。 | 

如 果 要 尝试 进行 算术 操作 以 外 的 操作 ， 很 快 就 会 发 现 需 要 向 数据 类 型 添加 更 多 操作 。 例 
如 ， 我 们 想 要 打印 一 些 数字 ， 可 能 要 求实 现 ， 比 如 说 ， 一 个 printNum 函 数 。 比 起 在 printf 中 
利用 内 置 格式 转换 ， 这 样 的 函数 不 太 便利 。 只 要 我 们 尝试 基于 程序 中 的 操作 的 同等 重要 性 开 
发 数据 类 型 ， 就 需要 在 操作 选择 、 易 于 实现 以 及 结果 的 可 用 性 方面 做 出 权衡 。 

通过 改变 数据 类 型 以 使 程序 3.2 适 合 其 他 类 型 的 数字 (比如 说 f10at 类 型 ,而 不 是 int 类 型 ) 
是 值得 考 虚 的 。 在 C 语 言 中 有 许多 不 同 的 机 制 可 供 使 用 ， 以 便 充分 利用 对 该 数据 类 型 引用 的 局 
部 化 。 对 于 这 样 一 个 小 程序 ， 最 简单 的 方法 是 复制 一 份 源 文件 ， 然 后 将 typedef 定 义 改 为 

typedef float Number 
且 将 函数 randNum 定 义 改 为 


return 1.0*rand( )/RAND_MAX; 


它 将 返回 0 和 1 之 间 的 浮 点 数 。 即 使 这 样 一 个 小 程序 ， 这 种 方法 也 不 十 分 便利 ， 这 是 因为 需要 
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两 次 复制 主 程序 ， 而 且 我 们 必须 保证 以 后 对 这 个 程序 的 任何 修改 都 要 在 两 份 复制 中 反映 出 来 。 
在 C 语 言 中 有 另 一 种 可 供 选 择 的 方法 ， 就 是 把 typedef 和 randNum 放 到 一 个 独立 的 头 文件 ( 例 
如 称 为 Num.h 的 文件 ) 中 ， 而 在 程序 3.2 中 用 以 下 指令 取代 这 些 部 分 : 


#include "Num.h" 


那么 我 们 可 以 使 用 不 同 的 typedef 和 randNum 生 成 另 一 个 类 文件 : 通过 重 命名 这 些 文件 中 的 其 
中 一 个 ,或 者 另 建 一 个 Num.h。 在 程序 3.2 的 主 程序 中 调用 其 中 任意 一 个 ， 无 须 修改 主 程序 。 

第 三 种 备 受 推荐 的 软件 工程 实践 是 把 程序 分 为 三 个 文件 ， 

。 一 个 接口 (interface)， 定 义 了 数据 结构 以 及 声明 用 于 操作 这 个 数据 结构 的 函数 。 

。 在 接口 中 声明 的 函数 的 一 个 实现 (implementation ) 。 

。 一 个 客户 (client) 程序 ， 调 用 接口 中 声明 的 函数 ， 以 便 在 更 高 抽象 层次 上 使 用 。 

通过 这 种 安排 ， 我 们 可 以 利用 程序 3.2 中 的 具有 整数 或 浮 点 数 的 主 程序 ， 或 者 扩展 到 其 他 
类 型 的 数据 上 ， 只 需要 把 主 程序 与 某 个 其 他 数据 类 型 的 特定 代码 一 起 编译 。 在 以 下 的 段落 中 ， 
我 们 将 考虑 利用 这 种 方法 ， 把 程序 3.2 变 成 一 个 更 灵活 实现 所 需 的 精确 修改 。 

我 们 把 接口 看 作 数 据 类 型 的 一 个 定义 。 它 是 客户 程序 和 实现 之 间 的 契约 。 客 户 程 序 同意 
只 通过 定义 在 接口 中 的 函数 访问 数据 ， 而 实现 则 同意 交付 允许 的 函数 。 

对 于 程序 3.2 中 的 例子 ， 接 口 部 分 由 以 下 声明 组 成 : 


typedef int Number; 
Number randNum() ; 


第 一 行 指定 了 要 被 加 工 数 据 的 类 型 ， 第 二 行 指定 了 和 该 类 型 有 关 的 操作 。 这 个 代码 可 保 
存在 〈 例 如 名 为 Num.h 的 ) 文件 中 。 

Num.h 文 件 中 接口 的 实现 是 randNum 函 数 的 实现 ， 它 可 由 以 下 代码 组 成 ， 

#include <stdlib.h> 

#include "Num.h" 


Number randNum() 
{ return rand(); } 


第 一 行 引用 系统 提供 的 描述 rand( ) 函 数 的 接口 ， 第 二 行 引用 我 们 所 实现 的 接口 (这 一 行 
作为 一 个 核查 ， 检 查 我 们 实现 的 函数 是 否 与 声明 的 函数 类 型 相同 ) ， 最 后 两 行 是 这 个 函数 的 代 
码 。 可 能 把 这 些 代 码 保 存在 〈 例 如 名 为 int,c 的 ) 文件 中 。rand 函 数 的 实际 代码 保存 在 标准 C 
的 运行 时 间 库 中 。 

与 程序 3.2 对 应 的 客户 程序 从 接口 的 包含 指令 开始 ， 这 些 接口 声明 了 它们 所 使 用 的 洋 数 。 
代码 如 下 : 

#include <stdio.h> 


#include <math.h> 
#include "Num.h" 


程序 3.2 中 的 main 函 数 可 以 在 这 些 行 之 后 。 这 些 代码 可 以 保存 在 (例如 名 为 avg.c) 文件 中 。 

把 上 面 描述 的 程序 avg.h 和 int.c 一 起 编译 后 ， 就 与 程序 3.2 的 功能 相同 ， 但 它们 代表 一 种 
更 灵活 的 实现 方法 ， 这 既是 由 于 与 数据 类 型 关联 的 代码 被 封装 ， 并 且 其 他 客户 程序 也 可 使 用 ， 
也 是 由 于 无 需 修改 avg.c 就 可 将 其 应 用 于 其 他 数据 类 型 。 

除了 刚刚 描述 的 客户 一 接口 一 实现 的 情形 之 外 ， 还 有 很 多 支持 数据 类 型 的 其 他 方法 。 但 我 
们 在 算法 设计 的 上 下 文中 并 不 详 述 各 种 不 同方 法 的 差异 ， 因 为 这 样 的 差异 在 系统 程序 设计 的 
上 下 文中 已 做 了 最 好 的 描绘 ( 见 第 二 部 分 参考 文献 ) 。 然 而 ， 我 们 的 确 常常 利用 这 种 基本 的 设 
计 范 型 ， 因 为 它 为 我 们 提供 了 一 种 用 改进 实现 替换 旧 有 实现 的 方法 ， 从 而 使 我 们 可 以 比较 同 
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一 应 用 问题 的 不 同 算法 。 第 4 章 专门 讨论 这 一 主题 。 

我 们 常常 希望 构造 一 些 可 以 处 理 数 据 集合 的 数据 结构 。 数 据 结构 可 能 很 庞大 ， 也 可 能 应 
用 范围 很 广 ， 因 而 我 们 最 感 兴趣 的 是 ,确定 作用 在 数据 上 的 重要 操作 ， 以 及 如 何 高 效 实现 那 
些 操作 。 完 成 这 些 任务 是 逐步 从 低层 次 的 抽象 构建 高 层次 的 抽象 的 过 程 中 的 第 一 步 。 这 个 过 
程 允 许 我 们 方便 地 开发 出 更 强大 的 程序 。C 语 言 中 有 组 织 地 集中 数据 的 最 简单 的 机 制 是 数组 
(array， 我 们 将 在 3.2 节 中 介绍 ) ， 以 及 接 下 来 介绍 的 结构 体 (structure)。 

结构 体 是 集合 类 型 ， 用 于 定义 数据 的 集合 ， 以 便 将 整个 集合 作为 一 个 单元 来 操纵 ， 但 我 
们 仍 可 以 通过 一 个 给 定数 据 集 的 个 体 成 员 的 名 字 来 引用 它 。 结 构 体 与 内 置 数 据 类 型 (例如 C 语 
言 中 的 int 或 fl10at) 不 属于 一 个 层次 ， 因 为 那些 内 置 类 型 只 能 进行 复制 和 赋值 。 因 此 ， 我 们 
可 以 利用 结构 体 定义 新 的 数据 类 型 ， 可 以 利用 它 命 名 变量 ， 还 可 以 把 变量 作为 参数 传递 给 函 
数 ， 但 我 们 必须 把 想 要 进行 的 操作 明确 地 定义 为 函数 。 

例如 在 处 理 几 何 数据 时 ， 可 能 想 要 利用 平面 上 点 的 抽象 概念 。 因 此 ， 以 下 语句 表示 ， 类 
型 point 代 表 浮 点 数 对 。 

struct point { float x; float y; }; 
而 语句 

struct point a, b; 
声明 了 两 个 这 种 类 型 的 变量 。 我 们 可 以 通过 一 个 结构 的 个 体 成 员 的 名 字 引 用 它们 。 例 如 ， 
语句 - 

a.x= 1.0; a.y = 1.0; b.x = 4.0; b.y = 5.0; 

设 a 表 示 点 (1, 1) ，b 表 示 点 (4, 5)。 

我 们 还 可 以 把 结构 体 作 为 参数 传递 给 函数 。 例 如 ， 以 下 代码 

float distance(struct point a, struct point b) 

{float ax = a.x- b.x, dy = ay - b.y; 


return sqrt (dx*dx + dy*dy); 
} 


定义 了 计算 平面 上 两 点 之 间距 离 的 函数 。 这 个 例子 展示 了 如 何 使 用 结构 体 ， 在 典型 应 用 中 把 
数据 集中 起 来 的 方法 。 

程序 3.3 是 一 个 具体 化 了 平面 上 点 的 数据 类 型 定义 的 接口 ， 它 用 一 个 结构 体 表示 点 ， 并 且 
包含 计算 两 点 之 间距 离 的 操作 。 程 序 3.4 是 实现 这 个 操作 的 函数 。 我 们 利用 像 这 样 的 接口 一 实 
现 安排 来 定义 可 能 的 数据 类 型 ， 因 为 它们 以 一 种 清晰 明了 的 方式 封装 定义 〈 在 接口 中 ) 和 实 
现 。 如 果 要 在 一 个 客户 程序 中 使 用 这 种 数据 类 型 ， 则 只 需要 用 包含 指令 调用 该 接口 ， 并 把 实 
现 与 客户 程序 一 起 编译 (或 使 用 合适 的 分 割 编译 的 软件 )。 程 序 3.4 利 用 typedef 定 义 point 数 
据 类 型 ， 以 便 客户 程序 可 以 把 点 声明 为 point， 而 不 是 声明 为 struct point。 并 且 不 需 作 关 
于 数据 类型 如 何 表示 的 任何 假设 。 在 第 4 章 里 ， 我 们 将 看 到 如 何 使 客户 和 实现 之 间 的 分 割 更 进 
一 步 。 
i “程序 3.3， 举 标 点 的 数据 类 型 接口 FA 

这 个 接口 定义 了 一 个 由 “对 浮 点 数 ” 信 组 合成 的 数据 类 型 ， 以 及 “计算 两 点 之 间距 离 ” 
的 函数 的 操作 组 成 。 


typedef struct { float x; float y; } point; 
float distance(point, point); 
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程序 3.4 坐标 点 数据 类 型 的 实现 BE 
实现 现 部 分 为 程序 3.3 中 声明 的 坐标 点 的 距离 函数 提供 了 定义 。 它 利用 了 一 个 库 函数 来 计算 
平方 根 。 
#include “math .h> 
#include "Point ,by" 
float distance(point a, point b) 
{float dx =a.x- b.x, dy = a.y - b.y; 


return sqrt(dx*dx + dy*dy); 
} 


我 们 不 能 利用 程序 3.2 处 理 point 类 型 的 数据 项 ， 这 是 因为 没有 定义 点 的 算术 运算 和 类 型 
转换 。 现 代 语 言 (例如 C++ 和 Java) 具有 基本 构造 ， 这 使 我 们 可 以 利用 先前 定义 的 高 级 抽象 操 
作 运 用 到 新 定义 的 类 型 中 。 有 了 足够 的 一 般 接口 ， 即 使 是 在 C 语 言 中 ， 我 们 也 可 以 对 这 些 接口 
进行 安排 。 然 而 ， 在 这 本 书 里 ， 尽 管 我 们 试图 研制 具有 一 般 用 途 的 接口 ， 但 我 们 仍然 防止 使 
算法 过 于 星 涩 ， 或 是 由 于 这 个 原因 辆 牲 掉 算法 的 良好 性 能 。 我 们 的 主要 目标 是 解释 所 引入 算 
法 学 思想 的 效率 。 尽 管 我 们 常常 进行 一 般 性 的 论述 ， 但 我 们 确实 关注 精确 定义 的 想 要 进行 的 
抽象 操作 的 过 程 ， 以 及 支持 这 些 操 作 的 数据 结构 和 算法 ， 这 是 因为 这 样 做 是 研制 高 效 算法 和 
程序 的 核心 。 在 第 4 章 里 ， 我 们 将 详细 论述 这 个 主题 。 

刚刚 才 -给 出 的 结构 体 point 的 例子 是 一 个 简单 的 例子 ， 只 由 两 个 类 型 相同 的 数据 项 组 成 。 
一 般 来 讲 ， 结 构 体 可 以 混合 不 同类 型 的 数据 。 在 本 章 的 其 余部 分 我 们 将 广泛 地 处 理 这 样 的 结 
构 体 。 

除了 提供 int、f1oat 和 char 这 些 特 定 的 基本 类 型 ， 以 及 提供 用 struct 把 它们 构建 成 符 
合 类 型 的 能 力 外 ，C 语 言 还 提供 了 间接 操纵 数据 的 能 力 。 指 针 〈pointer) 是 对 内 存 中 对 象 的 
引用 (通常 实现 为 一 个 机 器 地 址 )。 我 们 通过 语句 int *a 把 变量 a 声明 为 一 个 指向 整数 的 指 
针 ， 并 且 可 以 用 *a 引 用 这 个 整数 自身 。 我 们 可 以 声明 指针 指向 任何 数据 类 型 。 一 元 操作 符 廊 
给 出 一 个 对 象 的 机 器 地 址 ， 它 对 于 初始 化 指针 很 有 用 。 例 如 *&a 和 a 是 完全 相同 的 。 限 制 符 
号 及 只 用 于 此 目的 ， 因 为 在 有 可 能 情况 下 ， 我 们 更 喜欢 用 高 一 级 的 抽象 而 不 是 用 机 器 地 址 处 
理 问 题 。 

经 由 指针 间接 引用 一 个 对 象 比 直接 引用 对 象 更 便利 ， 也 更 高 效 ， 尤 其 对 于 较 大 的 对 象 更 
是 如 此 。 从 3.3 节 至 3.7 节 我 们 会 看 到 表明 这 个 优势 的 许多 例子 。 我 们 将 会 看 到 ， 更 为 重要 的 一 
点 是 指针 有 多 种 途径 可 使 数据 结构 化 ， 这 些 途径 可 以 支持 处 理 数 据 的 更 高 效 的 算法 。 指 针 是 
多 种 数据 结构 和 算法 的 基础 。 

当 我 们 考虑 一 个 返回 多 个 值 的 函数 定义 时 ， 会 出 现 一 个 关于 指针 使 用 的 简单 而 又 重要 的 
例子 。 例 如 ， 以 下 函数 〈 调 用 来 自 标准 库 的 函数 sqrt 和 atan2) 把 币 卡 尔 坐 标 转 换 为 极 坐 标 。 


polar(float x, float y, float *r, float *theta) 
< 
*r = Sqrt (x*x + y*y); 
*theta = atan2(y, x); 
} 


在 C 语 言 中 ， 所 有 沙 数 参数 采用 按 值 传 递 ， 也 就 是 说 ， 如 果 函 数 向 参数 变量 赋 一 个 新 的 值 ， 该 
赋值 作用 只 局 限于 函数 内 部 ， 基 调用 函数 不 可 见 。 这 个 函数 不 能 改变 指向 浮 点 数 r 和 theta 的 
指针 ， 但 它 可 以 通过 间接 引用 改变 这 些 数字 的 值 。 例 如 ， 如 果 一 个 调用 函数 有 声明 语 名 float 
a，b， 那 么 以 下 函数 调用 将 导致 值 被 设 为 1.414214 ( V2 ) ，b 值 被 设 为 0.785398 (mw/4)。 
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polar(1.0, 1.0, &a， &b) 


&& 操 作 符 允许 我 们 将 a、b 的 地 址 传递 给 函数 ， 而 函数 也 会 将 那些 参数 作为 指针 对 待 。 在 scanf 
库 函 数 中 我 们 已 经 看 到 这 个 用 法 的 一 个 例子 。 

到 目前 为 止 ， 我 们 主要 讨论 了 如 何 定义 程序 中 所 处 理 的 个 体 信 息 。 在 很 多 场合 ， 我 们 关 
注 的 是 如 何 处 理 潜 在 的 巨型 数据 集合 ， 而 现在 关注 处 理 巨 型 数据 集合 的 基本 方法 。 一 般 来 说 ， 
我 们 使 用 术语 数据 结构 来 组 织 信息 ， 以 提供 访问 和 操纵 它 的 方便 、 高 效 的 机 制 。 很 多 重要 的 
数据 结构 都 是 以 本 章 讨论 的 一 、 两 种 基本 数据 结构 为 基础 的 。 我 们 可 以 用 数组 把 对 象 按 照 一 
种 国定 有 序 的 方式 组 织 起 来 ， 这 种 方式 更 适合 于 访问 而 不 是 操纵 ， 或 者 用 表 (list) 把 对 象 按 
照 一 种 逻辑 有 序 的 方式 组 织 起 来 ， 这 种 方式 更 适合 于 操纵 而 不 是 访问 。 
练习 
>3.1 在 你 的 编程 环境 中 ， 分 别 找 出 可 以 使 用 类 型 int、1ong int、short int、float 和 
doub1e 表 示 的 最 大 和 最 小 的 数字 。 
3.2 在 你 的 系统 中 测试 随机 数 产生 器 。 针 对 " = 10，100 和 1000，N = 103，104，105 和 105 的 组 
合 情 况 ， 用 rand( ) % r 产 生 0 和 盖 1 之 间 的 随机 数 ， 并 计算 平均 值 和 标准 方差 。 
3.3 在 你 的 系统 中 测试 随机 数 产生 器 。 针 对 r = 10，100 和 1000，N = 103，104，105 和 105 的 组 
合 情 况 ， 生 成 NM 个 0~1 之 间 的 doub1e 类 型 的 随机 数 ， 通 过 和 r 相 乘 、 舍 去 小 数位 将 随机 数 转 变 
为 0~r 一 1 之 间 的 整数 ， 并 计算 平均 值 和 标准 方差 。 
03.4 对 r =2、4 和 16， 重 做 练习 3.2 和 3.3。 
3.5 实现 所 需 的 函数 ， 使 程序 3.2 可 用 于 随机 位 ( 取 值 只 能 为 0 或 1) 。 
3.6 定义 一 个 适用 于 表示 纸牌 的 struct。 
3.7 ”编写 一 个 能 够 调用 程序 3.3 和 程序 3.4 中 数据 类 型 的 客户 程序 ， 完 成 以 下 任务 : 从 标准 输 
入 读 取 一 系列 的 坐标 点 〈 浮 点 数组 成 的 数 对 ) ， 找 出 距离 第 一 个 点 最 近 的 点 。 
。3.8 ”向 坐标 点 的 数据 类 型 添加 一 个 函数 (程序 3.3 和 程序 3.4) ， 判 断 是 否 三 个 点 共 线 ， 数 值 误 
差 在 10 以内。 假设 点 都 位 于 单位 正方 形 内 。 
3.9 利用 极 坐 标 而 不 是 第 卡尔 坐标 定义 平面 上 点 的 数据 类 型 。 
。3.10 ”为 单位 正方 形 内 的 三 角形 定义 一 个 数据 类 型 ， 包 括 计算 三 角形 面积 的 函数 。 然 后 编写 一 
个 产生 0~1 之 间 的 f10at 类 型 的 三 元 随机 数 对 的 客户 程序 ， 并 计算 所 产生 三 角形 的 平均 面积 。 


3.2 数组 


也 许 最 基本 的 数据 结构 是 数组 ， 在 C 语 言 和 绝 大 多 数 其 他 编程 语言 中 都 把 数组 定义 为 一 个 
基本 元 素 。 在 第 1 章 的 例子 中 ， 我 们 已 经 看 到 使 用 数组 作为 编制 一 个 高 效 算法 的 基础 。 在 这 一 
节 里 ， 我 们 还 会 看 到 更 多 这 样 的 例子 。 

一 个 数组 是 一 组 相同 类 型 数据 的 固定 集合 ， 它 们 的 存储 空间 相 邻 ， 可 通过 索引 访问 。 我 
们 称 数组 a 的 第 i 个 元 素 为 a[i]。 在 引用 a[i] 之 前 ， 程 序 员 需 要 把 有 意义 的 内 容 存储 在 a[i] 中 。 
在 C 语 言 中 ， 程 序 员 还 必须 保证 使 用 的 索引 非 负 且 小 于 数组 大 小 。 忽 略 这 些 责任 是 两 种 最 常见 
的 编程 错误 。 

数组 是 最 基本 的 数据 结构 ， 因 为 它 实 质 上 和 所 有 计算 机 的 存储 系统 有 直接 的 对 应 关系 。 
如 果 要 用 机 器 语言 检索 存储 器 中 一 个 字 的 内 容 ， 就 必须 提供 它 的 地 址 。 因 此 ， 我 们 把 整个 计 
算 机 的 存储 系统 想象 成 一 个 数组 ， 存 储 器 地 址 对 应 数组 索引 。 大 多 数 机 器 语言 处 理 器 都 把 涉 
及 数组 的 程序 翻译 成 高 效 的 直接 访问 内 存 的 机 器 语言 程序 。 因 而 我 们 可 以 有 把 握 地 假设 ; 诸 
如 af[i] 这 样 的 数组 访问 操作 可 翻译 成 仅仅 几 条 机 器 指令 。 


利 了 全 苍术 数据 结构 45 





程序 3.5 给 出 了 一 个 使 用 数组 的 简单 例子 ， 打 印 所 有 小 于 10000 的 素数 。 这 个 方法 可 追溯 


到 公元 前 三 世纪 ， 被 称 为 埃 拉 托 色 尼 得 法 (sieve of 
Eratosthenes) 〈( 见 图 3-1) 。 算 法 充分 利用 了 事实 : 给 
定 元 素 的 索引 ， 可 以 高 效 地 访问 数组 中 的 任何 元 素 。 
算法 实现 有 四 个 循环 ， 其 中 三 个 循环 从 头 至 尾 顺 序 
访问 数组 中 的 元 素 ， 第 四 个 循环 在 数组 中 每 次 跳跃 i 
个 元 素 访 问 。 在 某 些 情况 下 ， 顺 序 处 理 是 必要 的 ， 
而 在 其 他 情况 下 ， 使 用 顺序 排序 的 原因 是 它 的 性 能 
和 其 他 方法 一 样 。 例 如 我 们 可 以 把 程序 3.5 的 第 一 个 
循环 改 为 : 

for (a[1] = 0, i = N-i; i > 1; i--) arfi] = 1; 
这 样 对 计算 没有 任何 影响 。 我 们 也 可 以 用 相似 的 方 
式 使 内 层 循 环 的 次 序 逆转 ， 或 者 可 以 把 最 后 的 循环 
改 为 按 递减 顺序 打印 素数 。 但 我 们 不 能 改变 主 计算 
中 外 层 循环 的 顺序 ， 因 为 在 完成 a[i] 是 否 为 素数 的 
测试 之 前 ， 它 需要 用 到 小 于 所 处 理 i 的 所 有 整数 。 

这 里 将 不 详细 分 析 程 序 3.5 的 运行 时 间 ， 因 为 这 
样 做 会 使 我 们 涉及 数论 的 主题 。 不 过 很 显然 这 个 程 
序 的 运行 时 间 和 下 式 成 正比 : 

N+N/2+N/3+N/S+N/ +N/ll + 

上 式 小 于 N+ N/2+N/3+N/4+*…=NHv~NInN, 
， C 语 言 的 一 个 与 众 不 同 的 特色 : 数组 名 会 产生 一 
个 指向 数组 首 元 素 (索引 0 所 指 的 元 素 ) 的 指针 。 此 
外 还 支持 简单 的 指针 运算 ， 如 果 p 是 一 个 指向 某 种 类 
型 的 对 象 的 指针 ， 那 么 我 们 在 编写 代码 时 ， 就 可 以 
假设 那 种 类 型 的 对 象 是 顺序 排列 的 ， 并 且 可 以 利用 
*p 引 用 其 第 一 个 对 象 ，*(p+l) 引 用 第 二 个 对 象 ， 
*#(p+2) 引 用 第 三 个 对 象 ， 以 此 类 推 。 换 句 话 说， 在 C 
语言 中 *(a+i) 和 a[i] 是 等 价 的 。 


。 这 个 程序 的 功能 是 :如果 自然 数 1 为 素数 、 则 设 a[1] 为 1， 否 
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图 3-1 埃 拉 托 色 尼 得 法 


注 : 要 计算 小 于 32 的 素数 ， 我 们 首先 初始 化 数 
组 中 所 有 的 元 素 为 1 (第 二 列 ) ， 表 明 假 定 
数组 中 的 所 有 数 都 为 素数 〈a[0] 和 a[1] 不 
用 ， 故 未 显示 出 ) 。 然 后 我 们 把 索引 为 2、3、 
5 的 倍数 的 数组 元 素 设 为 0， 因 为 这 些 倍数 
不 是 素数 。 最 后 索引 对 应 的 数组 元 素 仍 然 
为 1 的 元 素 为 素数 (最 右边 的 一 列 )。 









则 设 为 0。 首 先 把 数组 中 的 所 


有 元 素 设 为 1， 以 表明 没有 任何 数 已 被 证 明 是 非 素数 。 然 后 ， 把 数组 中 所 对 应 索引 处 已 证 明 是 
非 素数 (已 知 素数 的 倍数 ) 的 元 素 设 为 0。 如 果 所 有 更 小 素数 的 倍数 都 已 设 为 0，a[i] 仍 然 为 1， 


则 可 知 它 是 素数 。 


因为 程序 中 所 用 的 数组 由 最 简单 的 元 素 类 型 一 一 0 一 1 值 组 成 的 数组 ， 所 以 直接 使 用 由 位 组 
成 的 数组 比 整数 组 成 的 更 省 空间 。 另 外 ， 如 果 N 值 过 大 ， 某 些 编程 环境 可 能 要 求 把 数组 定义 为 
全 局 变量 ， 或 者 我 们 可 以 动态 地 为 它 分 配 空间 〈 见 程序 3.6) 。 


#define N i0000 
main() 
{ int i, j, a[N]; 
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for (i = 2; i < N; i++) a[i] = 
for (i = 2; i < N; i++) 
if (afi]) 
for (j = i; i*j < N; j++) afi*j] = 0; 
for (i = 2; i < N; i++) 
if (a[i]) printf ("%4d ", i); 
printf("\n"); 





程序 3.6 数组 的 动态 存储 分 配 i 
要 改变 程序 3.5 中 计算 的 最 大 素数 的 值 ， 需 要 重新 编译 程序 。 另 一 种 方法 是 ， 程序 从 命令 
行 获取 期 望 的 最 大 数 ， 再 通过 std1ib.c 中 的 库 函 数 ma11oc， 在 执行 时 利用 该 值 为 数组 分 配 空 
间 。 例 如 ， 如 果 我 们 编译 这 个 程序 ， 并 以 1 000 000 作 为 命令 行 参数 ， 那 么 就 可 以 得 到 小 于 100 
万 的 所 有 素数 ， 条 件 是 所 用 的 计算 机 足够 强大 和 快速 ， 使 计算 可 行 。 也 可 以 用 100 进 行 调试 ， 
这 不 需 太 多 的 时 间 和 空间 。 我 们 将 经 常 使 用 这 种 做 法 ， 但 为 了 简明 起 见 ， 会 省 去 低 效 的 内 存 
测试 。 
#include <stdlib.h> 
main(int argc, char *argv[]) 
{ long int i, j, N= atol(argv{1]); 
int *a = malloc(N*sizeof (int)); 
if (a == NULL) 
{ printf ("Insufficient memory.\n"); return; } 


这 种 等 价 性 为 访问 数组 中 的 元 素 提 供 了 另 一 种 机 制 ， 而 且 有 时 比索 引 更 方便 。 这 种 机 制 
常用 于 字符 数组 。 在 3.6 节 我 们 再 讨论 它 

和 结构 体 一 样 ， 指 向 数组 的 指针 意义 重大 ， 因 为 它们 允许 我 们 把 数组 作为 高 级 对 象 加 以 
高 效 操纵 。 尤 其 是 可 以 把 一 个 指向 数组 的 指针 作为 参数 传递 给 函数 ， 从 而 使 该 函数 无 需 复制 
整个 数组 就 能 访问 数组 中 的 对 象 。 在 我 们 编写 操纵 大 型 数组 的 程序 时 ， 这 种 能 力 必 不 可 少 。 
例如 ， 在 2.6 节 讨论 的 搜索 函数 就 利用 了 这 种 特性 。 我 们 将 在 3.7 节 看 到 其 他 例子 。 

程序 3.5 的 实现 假定 数组 的 大 小 必须 预先 知道 ， 要 为 不 同 的 N 值 运行 这 个 程序 ， 就 必须 改 
变 常数 N 的 值 ， 且 在 执行 之 前 重新 编译 。 程 序 3.6 给 出 了 另 一 种 方法 , 程序 的 用 户 可 以 输入 N 值 ， 
程序 返回 小 于 N 的 素数 。 程 序 中 利用 了 两 个 基本 的 C 机 制 ， 它 们 都 是 把 数组 作为 参数 传递 给 函 
数 。 第 一 种 机 制 是 把 大 小 为 argc 的 数组 argv 通 过 命令 行 参数 传递 给 主 程序 。 数 组 argv 是 一 个 
其 对 象 由 数组 (字符 串 ) 组 成 的 复合 数组 。 因 而 我 们 把 它 推 迟到 3.7 节 详细 讨论 。 目 前 只 要 确 
信 : 当 程 序 执行 时 ， 变 量 N 获 得 用 户 输 入 的 数字 。 

程序 3.6 中 使 用 的 第 二 种 机 制 ma110c ， 是 一 个 在 执行 时 为 数组 分 配 所 需 内 存 空间 的 分 配 函 
数 ， 并 且 返 回 一 个 专用 的 指向 数组 的 指针 。 在 一 些 编程 语言 中 ， 为 数组 进行 动态 分 配 十 分 困 
难 ， 或 者 不 可 能 这 样 做 。 而 在 另 一 些 编程 语言 中 ， 内 存 分 配 是 一 种 自动 化 机 制 。 动 态 分 配 在 
那些 操纵 多 个 数组 (也 许 其 中 一 些 数 组 规模 巨大 ) 的 程序 中 是 一 种 重要 的 手段 。 在 没有 动态 
内 存 分 配 的 情况 下 ， 我 们 只 好 预先 声明 一 个 足够 大 的 可 以 容纳 用 户 输入 大 小 的 数组 。 而 在 一 
个 大 型 程序 中 可 能 要 用 到 多 个 数组 ， 不 可 能 对 每 个 数组 都 这 样 做 。 由 于 程序 3.6 所 提供 的 灵活 
性 ， 因 而 在 本 书 中 一 般 使 用 类 似 的 代码 。 然 而 在 数组 大 小 预先 知道 的 特定 应 用 中 ， 像 程序 3.5 
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这 样 较 简单 的 代码 也 是 完全 适合 的 。 如 果 数 组 大 小 固定 且 很 大 ， 在 某 些 系统 中 需要 把 它 定 义 
为 全 局 数组 。 在 3.5 节 我 们 讨论 数组 以 外 的 其 他 几 种 
内 存 分 配 的 方法 ， 并 在 14.5 节 讨论 一 种 利用 ma11oc 
支持 数组 抽象 动态 增长 的 机 制 。 然 而 ， 正 如 我 们 将 
要 看 到 的 那样 ， 这 样 的 机 制 会 有 相关 开销 ， 因 而 我 
们 一 般 认 为 数组 具有 这 样 的 性 质 : 一 旦 为 它们 分 配 
了 空间 ， 其 大 小 就 是 固定 的 ， 且 不 能 被 改变 。 

” ”数组 不 仅 更 能 反映 出 大 多 数 计算 机 中 访问 内 存 
数据 的 低层 机 制 ， 而 且 还 由 于 它们 与 应 用 中 组 织 数 
据 的 自然 方法 直接 地 对 应 ， 因 而 得 到 了 广泛 应 用 。 
例如 ， 数 组 也 和 表示 对 象 索 引 列表 的 数学 术语 一 一 
矢量 相对 应 。 

程序 3.7 是 一 个 使 用 数组 模拟 程序 的 范例 。 它 模 
拟 出 伯 努 利 实验 (Bernoulli trial) 的 一 个 序列 ， 这 是 
概率 论 中 一 个 熟悉 的 抽象 概念 。 如 果 我 们 抛 一 枚 硬 
币 N 次 ， 那 么 看 到 k 次 正面 的 概率 是 
N11 er-N/27771N 
(让 ~ 二- 

这 种 近似 也 成 为 正 态 近 似 ， 是 我 们 所 熟悉 的 贝 
尔 型 曲线 。 图 3-2 显 示 了 程序 3.7 模 拟 抛 一 枚 硬币 32 次 
的 1000 次 实验 的 输出 结果 。 可 在 任何 一 本 关于 概率 
论 的 书 中 找到 伯 努 利 分 布 和 正 态 近似 的 详细 资料 ， 图 3-2 抛 硬币 的 模拟 实验 
在 第 13 章 我 们 会 再 次 接触 到 这 些 分 布 。 目前 ， 计 算 注 : 这 个 表 显 示 了 程序 3.7 在 N = 32 和 M = 1000 
中 主要 关注 的 是 用 这 些 数字 作为 数组 的 索引 统计 时 ,模拟 1000 次 的 “ 抛 硬 币 32 次 ”的 实验 


它们 出 现 的 频率 。 支 持 这 类 操作 是 数组 的 主要 优点 的 运行 结果 。 看 到 正面 的 次 数 近似 正 态 分 
之 一 机 函数 ， 并 根据 数据 绘 出 图 形 。 


程序 3.7 擅 硬 市 的 机 拟 000 
如 果 我 们 把 一 个 硬币 抛 N 次 ， 期 望 得 到 N/2 次 正面 ， 但 从 0~N 次 的 每 一 种 情况 都 可 能 发 生 。 
这 个 程序 从 命令 行 得 到 参数 M 和 N 的 值 ， 并 在 实验 中 运行 M 次 。 程序 利用 数组 f 记 录 “i 次 正面 ” 
的 出 现 频率 ，0<i<N， 然 后 输出 实验 结果 的 条 形 图 ， 图 中 每 个 星 号 代表 10 次 出 现 。 
这 个 基于 计算 出 的 值 作为 数组 索引 的 操作 的 程序 ， 对 于 许多 计算 过 程 的 效率 是 至 关 重要 的 。 
#include <stadalib.h> 
int heads() 
{ return rand() < RAND_MAX/2; } 
main(int argc, char *argv []) 
{int i, j, cnt; 
int N = atoi(argv[1])，M = atoi(argv[2]); 
int *f = malloc((N+1)*sizeof (int)); 
for (j = 0; j <= Ni j++) f[j] = 0; 
for (i = 0; i < M; i++，f[cnt]++) 
for (cnt = 0, j = 0; j <= N; j++) 
if (heads()) cnt++; 
for (j = 0; j <= N; j++) 








Omori-o 
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{ 
printf("%2d ", j); 
for (i = 0; i < £f[j]; i+=10) printf("*"); 
printf ("\n"); 


} 





程序 3.5 和 程序 3.7 都 从 已 有 数据 计算 数组 的 索引 值 。 在 某 种 意义 上 ， 当 我 们 使 用 计算 出 的 
值 访问 大 小 为 N 的 数组 时 ， 只 用 一 个 操作 就 考虑 了 N 种 可 能 性 。 当 我 们 实现 这 一 点 时 ， 所 获 效 
益 巨 大 的 。 贯 穿 全 书 都 会 遇 到 以 这 种 方式 使 用 数组 的 算法 。 
利用 数组 组 织 所 有 不 同类 型 的 对 象 ， 不 局 限于 整数 类 型 。 在 C 语 言 里 可 以 声明 内 置 类 型 或 
用 户 定义 类 型 的 数组 。 例 如 ， 把 复合 对 象 声 明 为 结构 。 程 序 3.8 展 示 了 利用 结构 体 数 组 表示 平 
面 上 的 点 ， 其 中 利用 了 3.1 节 中 讨论 的 结构 体 定义 。 这 个 程序 还 展示 了 数组 的 一 种 常用 方法 ， 
就 是 把 数据 分 开 保存 ， 以 便 在 某 些 计算 中 通过 一 些 有 组 织 的 方式 快速 访问 它们 。 顺 便 提 一 提 ， 
程序 3.8 的 另 一 个 有 趣 之 处 在 于 它 是 一 个 典型 的 二 次 算法 。 该 算法 检查 一 个 由 N 个 数据 项 组 成 
的 集合 中 的 所 有 对 ， 因 此 所 需 时 间 和 入 ?成 正比 。 在 本 书 中 ， 只 要 遇 到 这 样 一 个 算法 ， 我 们 就 
寻求 改进 的 方法 ， 这 是 因为 随 着 N 的 增 大 ， 这 个 二 次 算法 会 变 得 不 可 行 。 在 3.7 节 中 我 们 将 会 
看 到 如 何 利用 一 个 复合 的 数据 结 构 ， 使 运算 在 线性 时 间 内 得 以 完成 的 例子 。 
1 ， 程序 3.8 最近 点 对 的 计算 J 
这 个 程序 显示 了 结 占 构 体 数组 的 使 用 。 它 是 在 某 些 计算 中 把 数据 项 存储 在 数组 中 以 便 稍 后 
处 理 的 一 种 典型 表示 方法 。 这 个 程序 对 于 N 个 随机 产生 的 单位 正方 形 中 的 点 ， 统 计 可 以 被 长 度 
小 于 4 的 直线 连结 的 点 对 数 。 其 中 使 用 3.1 节 描述 的 点 的 数据 类 型 。 因 为 运行 时 间 为 O00Y?)， 因 
而 这 个 程序 不 适合 于 大 数 N。 程 序 3.20 给 出 了 一 种 快速 解法 。 
#include <math.h> 
#include <stdio.h> 
#include <stdlib.h> 
#include "Point.h" 
float randFloat() 
{ return 1.0*rand()/RAND_MAX; } 
main(int argc, char *argv[]) 
{ float d = atof (argv [2]); 
int i, j, cnt = 0, N = atoi(argv{[1]); 
point *a = malloc(N*(sizeof (*a))); 
for (i = 0; i < N; i++) 
{ ari].x = randFloat(); a[i].y = randFloat (); } 
for (i = 0; i < N; i++) 
for (j = i+1; j < N; j++) 
if (distance(a[i], a[j]) < d) cnt++; 
printf("%d edges shorter than %f\n", cnt, d); 
} 


我 们 可 以 用 类 似 方法 创建 一 个 任意 复杂 的 复合 类 型 它们 可 以 是 结构 体 数组 ， 还 可 以 是 
数组 组 成 的 数组 ， 或 者 是 包含 数组 的 结构 体 。 在 3.7 节 中 我 们 将 仔细 考虑 各 种 数组 的 使 用 。 然 
而 ， 在 这 之 前 我 们 先 研究 链表 ， 这 是 除数 组 外 的 另 一 种 组 织 对 象 集合 的 主要 方法 。 
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练习 
>3.11 假定 a 被 声明 为 int a[99]。 给 出 执行 以 下 两 条 语句 后 数组 中 的 内 容 。 


for (i = 0; i < 99; i++) afi] = 98-i; 
for (i = 0; i < 99; i++) a[i] = a[a[i]]; 


3.12 修改 埃 拉 托 色 尼 得 法 的 实现 (程序 3.5) ， 分别 使 用 元 素 为 字符 的 数组 和 为 位 的 数组 。 确 
定 这 些 改变 对 程序 中 使 用 的 空间 和 时 间 所 产生 的 影响 。 

>3.13 对 于 N= 10;，10“，105 和 105， 利 用 埃 拉 托 色 尼 得 法 确定 小 于 N 的 素数 。 

23.14 利用 埃 拉 托 色 尼 筛 法 画 出 N 与 小 于 N 的 素数 个 数 之 间 的 一 条 曲线 ， 其 中 和 N 介 于 1~1000 之 间 。 
3.15 ”对 于 N = 10 3，104，105; 和 105， 通 过 实验 确定 从 程序 3.5 的 内 层 循 环 去 掉 测试 if (a[i]) 
后 所 造成 的 影响 。 

。3.16 分 析 程 序 3.5， 并 解释 你 在 练习 3.15 中 所 观察 到 的 结果 。 

>3.17 编写 一 个 程序 ， 统 计 出 现在 输入 流 中 小 于 1000 的 不 同 整数 的 个 数 。 

03.18 ”编写 一 个 程序 ， 对 于 小 于 1000 的 随机 正 整 数 ， 通 过 实验 确定 期 望 产生 多 少 个 数 才 能 出 
现 重复 。 

93.19 ”编写 一 个 程序 ， 对 于 小 于 1000 的 随机 正 整数 ， 通 过 实验 确定 期 望 产生 多 少 个 数 才 能 使 
得 每 个 数 至 少 出 现 一 次 。 

3.20 ”修改 程序 3.7， 使 其 模拟 抛 出 的 硬币 得 到 正面 的 概率 为 p 的 情况 。 对 于 硬币 抛 出 32 次 得 到 
正面 的 概率 为 1/6 的 实验 ， 运 行程 序 1000 次 ， 并 把 得 到 的 输出 结果 和 图 3-2 进 行 比较 。 

3.21 修改 程序 3.7， 使 其 模拟 抛 出 的 硬币 得 到 正面 的 概率 为 MN 的 情况 。 对 于 硬币 抛 出 32 次 的 
实验 ， 运 行程 序 1000 次 ， 并 把 得 到 的 输出 结果 和 图 3-2 进 行 比 较 。 这 种 情况 就 是 经 典 的 治 松 
(Poisson) 分 布 。 

23.22 修改 程序 3.8， 打 印 最 近 点 对 的 坐标 。 

。3.23 修改 程序 3.8， 计 算 d 维 空间 中 的 最 近 点 对 。 


3.3 链表 


当 我 们 的 主要 目标 是 一 个 一 个 地 顺序 访问 集合 中 的 每 个 数据 项 时 ， 可 以 把 数据 项 组 织 为 链 
表 (linked list) 。 链 表 是 一 种 基本 的 数据 结构 ， 每 个 数据 项 中 都 包含 我 们 所 需 的 到 达 下 一 个 数 
据 项 的 信息 。 链 表 比 数组 的 优势 在 于 ， 它 可 为 提供 高 效 地 重 排 数据 项 的 能 力 。 这 种 灵活 性 的 
代价 是 不 能 快速 访问 表 中 任意 数据 项 ， 因 为 访问 链表 中 数据 项 的 惟一 方式 是 沿 着 链表 ， 一 个 
一 个 节点 地 访问 ， 直 到 找到 这 个 数据 项 。 有 很 多 种 组 织 链表 的 方法 ， 都 从 以 下 基本 定义 开始 。 

定义 3.2 ”链表 是 一 组 数据 项 的 集合 ， 其 中 每 个 数据 项 都 是 一 个 节点 的 一 部 分 ， 每 个 节点 
都 包含 指向 下 一 个 节点 的 链接 。 

我 们 通过 引用 节点 来 定义 节点 ， 因 而 链表 有 时 也 被 称 为 自 引 用 结构 。 此 外 ， 尽 管 一 个 节 
点 的 链接 通常 指向 不 同 节 点 ， 但 也 可 指向 自身 ， 所 以 链表 也 称 为 循环 结构 。 当 我 们 开始 讨论 
链表 的 具体 表示 和 应 用 时 ， 这 两 个 事实 的 含义 就 会 变 得 更 清晰 。 

一 般 来 说 ， 我 们 把 链表 看 作 一 组 元 素 的 顺序 排列 的 实现 : 从 某 个 给 定 节 点 开始 ， 其 数据 
项 被 认为 是 序列 中 的 第 一 个 元 素 。 然 后 我 们 沿 着 它 的 链接 访问 下 一 个 节点 ， 其 数据 项 被 认为 
是 序列 中 的 第 二 个 元 素 。 以 此 类 推 。 因 为 链表 可 以 是 循环 的 ， 相 应 的 序列 似乎 也 是 无 限 的 。 
但 通常 所 涉及 的 大 部 分 链表 都 对 应 一 个 有 限 数据 项 集合 的 简单 重 排 ， 对 于 链表 中 的 末尾 节点 ， 
约定 : 

* 将 其 置 为 不 指向 任何 节点 的 空 链接 。 
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* 使 其 指向 一 个 不 包含 元 素 节点 的 哑 元 节点 。 

“使 其 指向 第 一 个 节点 ( 首 节 点 )， 使 链表 成 为 循环 链表 。 

在 每 种 情况 下 ， 从 首 节 点 出 发 ， 沿 着 链接 访问 到 最 后 一 个 节点 ， 定 义 了 一 个 元 素 顺 序 排 
列 。 数 组 也 定义 了 一 组 元 素 的 顺序 排列 ， 但 是 其 中 数据 的 顺序 组 织 是 由 数组 中 的 位 置 隐 含 确 
定 的 。 数 组 还 支持 用 索引 直接 访问 其 中 的 任意 元 素 ， 而 链表 则 不 支持 。 

我 们 首先 考虑 只 有 一 个 链接 的 节点 。 在 绝 大 多 数 应 用 中 ， 我 们 使 用 一 维 链表 ， 链 表 中 除 
了 首 节点 和 尾 节点 之 外 ， 其 余 所 有 节点 均 有 一 个 指向 它们 的 链接 。 这 和 最 简单 、 也 是 最 令 我 
们 感 兴趣 的 情况 相对 应 ， 就 是 链表 对 应 元 素 的 有 限 序 列 。 我 们 将 在 以 下 的 章节 中 讨论 更 复杂 
的 情况 。 

链表 在 一 些 编程 环境 中 定义 为 基本 结构 ， 但 在 C 语 言 中 却 不 是 。 然 而 ， 在 3.1 节 中 讨论 的 
基本 构建 组 件 很 适合 于 链表 实现 。 明 确 地 说 ， 我 们 用 指针 表示 链接 ， 用 结构 体 表示 节点 。 
typedef 声 明 给 出 了 一 种 引用 链接 和 节点 的 方法 ， 如 下 所 示 : 


typedef struct node *link; 
struct node { Item item; link next; }; 


这 和 定义 3.2 中 的 C 代 码 没什么 两 样 。 链 接 是 指向 节点 的 指针 ， 节 点 是 由 数据 项 和 链接 组 
成 的 。 我 们 假设 程序 的 另 一 部 分 使 用 typedef 或 者 某 些 其 他 机 制 允 许 声明 变量 Item 的 类 型 。 我 
们 在 第 4 章 中 还 将 看 到 更 复杂 的 表示 ， 这 种 表示 可 以 提供 更 大 的 灵活 性 以 及 更 高 效 地 实现 某 种 
操作 ， 但 这 种 简单 表示 用 来 讨论 表 处 理 中 的 基本 操作 已 经 足够 了 。 贯 穿 本 书 我 们 都 对 链接 结 
构 使 用 类 似 的 约定 。 

要 高 效 地 使 用 链表 结构 ， 内 存 分 配 是 关注 的 重要 因素 。 尽 管 我 们 已 经 定义 了 一 个 单一 i 
构 体 (结构 体 节 点 )， 但 由 于 它 对 我 们 使 用 的 每 个 节点 都 产生 一 个 实例 ， 因 而 记 住 众多 这 种 结 
构 体 的 实例 也 很 重要 。 一 般 而 言 ， 我 们 在 程序 执行 时 才 知 道 所 需 的 节点 数 ， 而 且 程序 的 各 部 
分 可 能 还 会 调用 可 用 内 存 ， 因 而 我 们 会 利用 系统 程序 记录 程序 对 内 存 使 用 的 情况 。 无 论 何 时 ， 
只 要 我 们 需要 一 个 新 节点 ， 就 需要 创建 一 个 节点 结构 体 的 实例 ， 并 为 它 保留 一 定 的 内 存 。 例 
如 以 下 代码 : 

link x = malloc(sizeof *x); 

使 用 std1ib.h 中 的 ma11oc 函 数 和 sizeof 算 子 为 一 个 节点 预 留 足 够 内 存 空间 ， 并 在 x 中 返回 一 
个 指向 该 内 存 块 的 指针 。 这 行 代码 并 不 直接 指向 一 个 节点 ， 但 是 链接 只 能 指向 一 个 节点 ， 因 
而 Sizeof 和 ma110c 含 有 所 需 的 信息 。 在 3.5 节 我 们 将 更 详细 地 讨论 内 存 分 配 的 过 程 。 此 时 ， 为 
简化 起 见 ， 我 们 把 这 一 行 的 代码 看 作 C 语 言 中 创建 新 节点 的 方式 。 实 际 上 ， 贯 穿 本 书 我 们 都 像 
这 样 使 用 ma11oc 函 数 。 

一 且 创 建 一 个 表 节 点 ， 如 何 引 用 它 所 包含 的 信息 一 一 它 的 数据 项 和 它 的 链接 呢 ? 我 们 已 
经 见 过 该 任务 所 需 的 基本 操作 : 只 要 先 解除 指针 指向 ， 然 后 利用 结构 体 的 成 员 名 就 可 以 了 ， 
也 就 是 链接 x 所 指向 节点 的 数据 项 (类 型 为 Item) (*x).item 和 链接 (类 型 为 1ink ) 
(*X).next。 然 而 这 些 操作 极其 常用 ， 以 至 于 C 语 言 提供 了 与 之 等 价 的 简洁 形式 x->item 和 x- 
>next 。 同 时 ， 我 们 还 常用 短语 “由 链接 x 指向 的 节点 ”， 因 而 简洁 地 说 “节点 x”， 表 示 链 接 的 
确 指定 了 节点 。 

链接 和 C 指 针 之 间 的 对 应 关系 是 至 关 重 要 的 ， 但 我 们 必须 谨 记 前 者 是 一 种 抽象 ， 后 者 是 一 
种 具体 表示 。 例 如 ， 在 本 节 末 尾 我 们 将 看 到 ， 也 可 以 用 数组 索引 表示 链接 。 

图 3-3 和 图 3-4 显 示 了 我 们 在 链表 上 所 进行 的 两 种 基本 操作 。 我 们 可 以 从 链表 中 删除 任何 数 
据 项 ， 使 链表 长 度 减 少 1， 也 可 以 向 链表 插入 一 个 节点 ， 使 链表 长 度 增 加 1。 为 简单 起 见 
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设 对 于 这 些 图 链表 是 循环 的 ， 而 且 永远 不 会 为 空 表 。 在 3.4 节 中 我 们 将 讨论 空 链接 、 旺 元 节点 


和 空 表 。 如 图 所 示 ， 播 入 和 删除 每 个 操作 各 自 需 
要 C 中 的 两 条 语句 。 删 除 节点 x 后 的 下 一 节点 使 用 
的 语句 是 : 

t = x->next; x->next = t->next; 

更 简单 的 语句 是 : 

x->next = x->next->next,; 

把 节点 t 插 入 链表 中 节点 x 后 的 下 一 位 置 ， 我 们 使 
用 语句 : 

t->next = x->next; x->next = t; 
插入 和 删除 的 简单 性 是 链表 存在 的 理由 。 数 组 中 
对 应 的 操作 既 不 自然 也 不 方便 ， 因 为 它们 需要 移 
动 数 组 中 受到 影响 数据 项 后 的 所 有 元 素 。 

相 比 之 下 ， 链 表 却 不 适合 用 于 “查找 第 k 个 元 
素 ”( 给 定 索 引 ， 查 找 某 个 元 素 ) 的 操作 。 而 这 个 
操作 刻画 了 在 数组 中 高 效 访问 的 特点 。 在 数组 中 ， 
查找 第 k 个 元 素 只 需 简单 访问 a[k]， 而 在 链表 中 ， 
我 们 必须 遍历 个 链接 。 单 链表 上 另 一 个 不 常 发 生 
的 操作 是 “查找 给 定数 据 项 之 前 的 元 素 ”。. 

当 我 们 利用 x->next = x->next->next 从 链 
表 中 删除 一 个 节点 时 ， 可 能 永远 也 不 能 访问 它 了 。 
对 于 我 们 一 开始 讨论 的 例子 那样 的 小 程序 而 言 ， 
这 还 不 会 产生 大 的 影响 。 但 我 们 通常 将 使 用 free 
函数 作为 一 个 良好 的 编程 习惯 ，free 函 数 与 
mal10C 函 数 相对 应 ， 应 用 它 可 以 删除 我 们 不 再 打 
算 使 用 的 节点 。 更 具体 地 说 ， 以 下 指令 序列 : 

t = x->next; x->next = t->next; free(t) ; 
不 仅 从 链表 中 删除 了 t， 而 且 通 知 系统 它 所 占据 的 
内 存 空间 可 用 于 其 他 用 途 。 当 我 们 有 庞大 的 链表 
对 象 或 者 链表 对 象 数 很 大 时 ， 需 要 对 free 函 数 特 
别 加 以 关注 ， 但 在 3.5 节 之 前 都 暂时 忽略 它 。 因 此 
我 们 可 以 集中 精力 感受 链表 结构 的 好 处 。 

在 随后 的 儿 章 里 ， 我 们 将 看 到 大 量 应 用 链表 
上 的 这 些 操 作 和 其 他 操作 的 范例 。 因 为 这 些 操 作 
仅 涉 及 几 个 语句 ， 所 以 我 们 通常 都 直接 地 操纵 链 
表 ， 而 不 为 插入 、 删 除 之 类 的 操作 定义 函数 。 作 
为 一 个 例子 ， 我 们 接 下 来 讨论 求解 约瑟夫 问题 
(Josephus problem) 的 程序 。 思想 与 埃 拉 托 色 尼 
第 法 一 样 。 

假设 有 N 个 人 决定 选 出 一 个 领导 人 ， 方法 如 
下 : 所 有 人 排 成 一 个 圆 图 ， 按 顺序 数 数 ， 每 隔 第 


图 3-3 链表 的 删除 操作 
注 : 要 从 一 个 链表 中 删除 某 个 给 定 节点 x 后 的 下 一 节 
点 ， 先 使 指针 t 指 向 要 放 侧 除 的 节点 ， 然 后 使 x 的 
链接 指向 t->next 。 指 针 t 用 于 引用 被 删除 的 节点 
《例如 ， 把 它 返 回 给 一 个 空 表 ) 。 尽 管 被 删节 点 的 
链接 仍然 指向 链表 中 ， 但 通常 从 链表 中 删除 这 个 
节点 后 ， 一 般 不 再 用 这 个 链接 。 例 外 的 情况 是 通 
过 free 函 数 通 知 系统 , 节点 占用 的 内 存 可 被 回收 。 


Lrc 
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图 3-4 链表 的 插入 操作 


注 : 要 在 一 个 链表 中 向 某 个 给 定 节点 x (上 图 ) 后 的 
下 一 位 置 插 入 一 个 给 定 节点 七 ， 先 使 t->next 指 向 
Xx->next (中 图 ), 然后 再 使 x->next 指 向 t (下 图 )。 
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M 的 人 出 局 ， 此 时 ， 他 两 边 的 人 靠拢 重新 形成 圆圈 。 问 题 是 找 出 哪 一 个 人 将 会 是 最 后 剩 下 的 
那个 人 (一 个 数学 上 具有 潜质 的 领导 人 应 提前 计算 出 他 应 站 在 贺 转 中 的 哪 一 个 位 置 ) 。 所 选 出 
的 领导 人 的 号 码 是 一 个 N 和 MM 的 函数 ， 我 们 称 之 为 约瑟夫 函数 (Josephus function) 。 更 为 一 般 
地 ， 我 们 希望 知道 所 有 人 出 局 的 顺序 。 例 如 ， 如 图 3-5 所 示 ， 如 果 N = 9 和 M = 5， 出 局 顺序 为 5 
1743692，8 是 所 选 的 领导 人 。 程 序 3.9 读 入 N 和 M， 并 打印 出 这 个 顺序 。 


程序 3.9， 循环 链表 范例 (约瑟夫 问题 ) 

我 们 构造 一 个 循环 链表 来 表示 排 成 加 围 的 人 每 人 的 链接 指向 圆圈 内 在 他 左边 的 人 。 整 
数 ; 表 示 圆 圈 内 的 第 :个 人 。 在 为 1 号 构造 一 个 节点 的 循环 链表 之 后 ， 再 把 2~N 号 插入 到 1 号 节点 
之 后 ， 得 到 一 个 1~N 的 环 ， 并 使 x 指向 N。 然 后 从 1 号 开始 ， 跳 过 M 一 ! 个 节点 ， 把 第 M 一 1 个 节点 
的 链接 指向 M+1 号 节点 ， 继 续 这 个 过 程 ， 直 到 剩 下 一 个 节点 为 止 。 


#include <stdlib .h> 

typedef struct node* link; 

struct node { int item; link next; }; 
main(int argc, char *argv[]) 

{ int i, N= atoi(argv[1]), M = atoi(argv[2]); 
link t = malloc(sizeof *t), x = 七 ; 
t->item = 1; t->next = t; 
for (i = 2; i <= N; i++) 

t 
XxX = (x->next = malloc(sizeof *x)); 
XxX->item = i; x->next = 七; 

} 

While (x != x->next) 

t 
for (i = 1; i < M; i++) x = x->next; 
xX->next = x~>next~->next; N--; 


printf("%d\n", x~->item); 


程序 3.9 利 用 了 一 个 循环 (circular) 链表 来 直接 模拟 这 个 选举 过 程 。 首 先 建立 1~N 的 一 个 
链表 : 创建 一 个 代表 1 号 的 单个 节点 的 循环 链表 ， 再 利用 图 3-4 描 述 的 插入 代码 ， 把 2~N 号 按 序 
插入 到 这 个 链表 中 。 然 后 ， 我 们 顺 着 链表 向 前 遍历 ， 数 出 M 一 1 个 元 素 ， 并 利用 图 3-3 中 描述 的 
代码 删除 下 一 个 节点 ， 继 续 这 个 过 程 ， 直 到 剩 下 一 个 节点 为 止 〈 这 个 节点 指向 它 自身 )。 

对 于 表示 一 个 按 顺 序 组 织 的 对 象 集合 ， 约 瑟 夫 问题 和 埃 拉 托 色 尼 得 法 清楚 地 阑 明 了 使 用 
链表 和 使 用 数组 两 种 方法 之 间 的 区 别 。 在 埃 拉 托 色 尼 得 法 中 如 果 用 链表 代替 数组 解决 问题 ， 
代价 将 是 昂贵 的 ， 因 为 算法 的 效率 取决 于 能 否 快速 访问 任何 位 置 。 而 在 约瑟夫 问题 中 如 果 用 
数组 代替 链表 解决 问题 ， 代 价 也 将 是 昂贵 的 ， 因 为 这 个 算法 的 高 效 取 决 于 快速 删除 元 素 的 能 
力 。 当 我 们 选择 一 种 数据 结构 时 ， 必 须 清 楚 这 个 选择 对 用 于 处 理 数据 的 算法 的 效率 有 什么 影 
响 。 这 种 数据 结构 和 算法 之 间 的 相互 影响 是 设计 过 程 的 核心 ， 也 是 一 个 贯穿 本 书 反复 出 现 的 
主题 。 

在 C 语 言 里 ， 指 针 为 链表 的 抽象 概念 提供 了 一 种 直接 而 又 便利 的 具体 实现 途径 。 但 这 个 抽 
象 的 核心 价值 并 不 依赖 于 任何 特定 的 实现 。 例 如 ， 图 3-6 显 示 了 如 何 使 用 整数 数组 来 实现 解决 
约瑟夫 问题 的 链表 。 也 就 是 说 ， 我 们 可 以 用 数组 索引 而 不 是 用 指针 实现 链表 ， 即 使 是 在 最 简 
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单 的 编程 环境 中 ， 链 表 也 是 很 有 用 的 。 在 C 这 些 高 级 语言 提供 指针 结构 以 前 ， 链 表 是 相当 有 用 
的 。 即 使 在 现代 的 计算 机 系统 中 ， 基 于 数组 的 实现 有 时 也 是 十 分 方便 的 。 





图 3-5 约瑟夫 选举 示例 图 3-6 链表 的 数组 表示 
注 : 这 个 图 显示 了 一 个 约瑟夫 型 的 选举 结果 ， 所 有 人 ” 注 ; 这 个 图 显示 了 一 个 用 数组 而 不 是 用 指针 实现 的 约瑟夫 
站 成 一 个 国 ， 然 后 槟 顺序 数 数 ， 每 数 到 第 5 的 人 出 问题 (如 图 3-5) 的 链表 。next[0] 表 示 索 引 为 0 的 元 素 
局 ,这 个 人 两 边 的 人 靠拢 形成 回 辕 。 的 下 一 个 元 素 的 索引 ， 以 此 类 推 。 初 始 时 (前 三 个 元 


素 )， 第 i 个 人 的 索引 为 i-1， 并 设 第 计 1 个 人 的 索引 为 
next[1], next[8]=0 形 成 一 个 循环 链表 , 其 中 i=0~8。 
为 了 模拟 约瑟夫 选举 过 程 ， 我 们 改变 next 数组 元 素 》 
链接 ， 但 并 不 移动 元 素 项 。 每 两 行 表示 在 链表 中 移动 
4 步 的 结果 ( 语 向 x = next[x]， 然 后 通过 语 负 next[x] 
= next[next[x]] 删 除 第 5 个 元 素 如 左边 所 示 ) 。 


练习 

“3.24 编写 一 个 返回 循环 链表 中 节点 数 的 函数 ， 给 定 指向 循环 链表 中 某 个 节点 的 指针 。 

3.25 ”给 定 两 个 指向 循环 链表 中 节点 的 指针 x 和 t， 编 写 一 段 代 码 ， 确 定 这 两 个 节点 之 间 的 节 
3.26 ”给 定 两 个 指向 不 同 循环 链表 的 指针 x 和 t， 编 写 一 段 代 码 ， 把 t 指 向 的 链表 插入 到 x 指 向 
的 链表 中 ， 揪 入 点 为 x 的 下 一 个 点 。 

“3.27 ”给 定 两 个 指向 循环 链表 中 节点 的 指针 x 和 t， 编 写 一 段 代 码 ， 把 t 后 的 节点 移 到 链表 中 x 
的 下 一 节点 后 面 的 位 置 上 。 

3.28 ”在 建立 链表 了 时， 程序 3.9 为 了 保证 插入 每 个 节点 之 后 维持 这 个 链表 是 循环 的 ， 设 置 了 双 
倍 的 实际 需要 的 链接 值 。 修 改 这 个 程序 ， 使 建立 链表 时 无 需 做 这 些 额 外 的 工作 。 
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3.29 在 常数 因子 范围 内 ， 给 出 作为 M 和 N 函 数 的 程序 3.9 的 运行 时 间 。 

3.30 分 别 对 于 M =2，3，5 和 10，N = 10”，10*，105 和 10， 使 用 程序 3.9 确 定 约瑟夫 函数 的 值 。 
3.31 分 别 对 M = 10 和 N = 2~1000， 使 用 程序 3.9 画 出 以 为 参量 的 约瑟夫 函数 的 分 布 图 。 
903.32 以 元 素 i 最初 处 于 数组 中 的 N-i 位 置 ， 重 建 图 3-6 中 的 表 。 

3.33 研制 程序 3.9 的 使 用 索引 数组 实现 链表 (如 图 3-6) 的 一 个 版 本 。 


3.4 链表 的 基本 处 理 操作 


链表 引领 我 们 进入 一 个 明显 不 同 于 数组 和 结构 体 的 计算 领域 。 使 用 数组 和 结构 体 ， 我 们 
可 以 把 元 素 保存 在 内 存 中 ， 并 通过 名 字 或 索引 引用 它 ， 这 种 方式 和 我 们 把 一 条 消息 放 在 文件 
夹 或 地 址 矫 中 一 样 。 而 使 用 链表 存储 信息 ， 使 得 它 的 信息 难以 访问 ， 但 重 排 容 易 。 处 理 用 链 
表 组 织 的 数据 称 为 链表 处 理 。 

当 使 用 数组 时 ， 我 们 容易 受到 涉及 数组 越界 访问 的 程序 错误 的 影响 。 使 用 链表 时 的 错误 
也 是 类 似 的 ， 最 常见 的 错误 是 引用 一 个 未 定义 的 指针 。 另 一 个 常见 错误 是 使 用 一 个 无 意 中 修 
改 了 的 指针 。 出 现 这 个 问题 的 一 种 原因 是 ， 可 能 有 多 个 指针 指向 同一 个 节点 ， 但 这 些 指针 未 
必 知 道 这 种 情况 。 程 序 3.9 使 用 永 不 为 空 的 循环 链表 避免 了 几 个 这 样 的 问题 ， 因 而 每 个 链表 总 
是 指向 一 个 良 定义 的 节点 ， 并 且 每 个 链表 也 能 解释 为 指向 链表 。 

为 链表 处 理应 用 研制 正确 且 高 效 的 代码 是 一 种 可 获得 的 程序 设计 技巧 。 这 一 节 讨 论 一 些 
实例 和 练习 ， 将 使 我 们 更 轻松 地 面 对 表 处 理 的 代码 。 贯 穿 本 书 还 将 看 到 大 量 其 他 例子 ， 因 为 
链表 结构 是 一 些 最 成 功 算 法 的 核心 。 

在 3.3 节 已 经 提 到 过 ， 对 于 链表 中 的 头 指 针 和 尾 指针 使 用 大 量 常规 约定 。 本 节 会 考虑 其 中 
的 一 些 常 规约 定 ， 但 还 会 用 术语 链表 描述 最 简单 的 情况 。 

定义 3.3 ”链表 是 一 个 空 表 ， 或 是 一 个 指向 节点 的 链接 ， 且 这 个 节点 包含 一 个 元 素 和 一 个 
指向 链表 的 链接 。 

这 个 定义 比 定义 3.2 更 有 限制 性 ， 但 它 和 我 们 在 编写 表 处 理 代码 时 的 思维 模型 更 密切 。 我 
们 并 不 打算 只 使 用 这 个 定义 而 排出 所 有 其 他 不 同 的 常规 定义 ， 也 不 打算 给 出 每 种 常规 用 法 的 
特有 定义 ， 而 是 使 两 者 共存 。 从 内 容 中 能 够 清晰 地 辨别 我 们 使 用 哪 种 类 型 的 链表 。 

在 链表 上 执行 的 最 常用 的 操作 之 一 是 遍历 操作 : 按照 顺序 遍历 链表 中 的 元 素 ， 对 每 个 元 
素 都 执行 某 种 操作 。 例 如 ， 如 果 x 是 一 个 指向 链表 首 节 点 的 指针 ， 尾 节点 中 的 指针 为 空 ， 
visit 是 一 个 元 素 为 参量 的 函数 ， 那 么 可 用 以 下 语句 遍历 链表 

for (t = x; t != NULL; t = t->next) visit(t->item); 

这 个 循环 (或 与 之 等 价 的 while 形 式 ) 在 链表 处 理 程序 中 非常 普遍 ， 就 像 在 数组 处 理 程 序 中 对 
for (i = 0; i < N; i++) 

程序 3.10 是 一 个 简单 的 链表 处 理 任务 的 实现 ， 它 使 链表 中 的 第 点 变 成 逆序 。 它 的 参数 为 链 
表 ， 并 返回 一 个 由 相同 节点 组 成 但 排列 顺序 相反 的 链表 。 图 3-7 显 示 这 个 函数 在 它 的 主 循环 中 
对 每 个 节点 所 作 的 改变 。 这 个 图 解 使 我 们 更 容易 地 检查 程序 的 每 条 语句 ， 从 而 确保 代码 按照 
我 们 的 意图 更 改 链接 。 程序 员 通常 会 用 这 些 图 理解 表 处 理 实现 的 操作 。 


a 程序 3.10 链表 求 逆 ， 
这 个 卫 孝 把 中 的 链接 池 序 ， 并 返回 一 个 指向 末尾 节点 的 指针 。 这 个 指针 指向 倒数 第 二 
个 节点 ， 以 此 类 推 。 而 原 链表 的 首 节点 的 链接 设 为 NILL。 为 了 完成 这 个 任务 ， 需 要 维护 链表 
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中 连续 三 个 节点 的 链接 。 
link reverse(link x) 
{ link t, y= x, r = NOLL; 
while (y != NULL) 
{t= y->next; y->next = r; r=y;y= t;} 
return r; 


} 
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图 3-7 链表 求 逆 


注 : 要 对 一 个 表 北 序 ， 我 们 保持 指向 链表 中 已 经 处 理 完毕 部 分 的 指针 Fr 和 指向 链表 中 尚未 处 理 部 分 的 指针 y。 这 
个 图 显示 了 链表 中 每 个 节点 的 指针 是 如 何 变化 的 。 我 们 先 把 指向 y 后 节点 的 指针 保存 在 tt 中， 然后 使 y 的 链 
接 指 向 Fr， 再 使 F 移 到 yY，y 移 到 tt。 


程序 3.11 是 另 一 个 表 处 理 任务 的 实现 : 重新 排列 链表 中 的 节点 ， 使 它们 的 元 素 有 序 。 该 程 
序 产 生 N 个 随机 整数 ， 并 按照 它们 产生 的 顺序 放 入 一 个 链表 中 ， 重 新 排列 链表 中 的 节点 使 其 中 
的 元 素 有 序 ， 最 后 打印 出 这 个 有 序 序列 。 我 们 在 第 6 章 将 表明 : 这 个 程序 的 运行 时 间 与 Y 成 正 
比 。 因 而 程序 对 于 太 大 的 N 没 什么 用 。 此 外 ， 我 们 还 把 对 这 个 程序 在 排序 方面 的 讨论 推迟 到 第 
6 章 ， 因 为 从 第 6 章 至 第 10 章 将 会 学 到 许多 排序 的 方法 。 这 里 只 是 给 出 一 个 具体 实现 ， 作 为 链 
表 处 理应 用 的 一 个 例子 。 


程序 3:11 链表 插入 排序 ， 


这 个 代码 产生 0-999 之 间 的 N 个 随机 数 ， 构建 每 个 节点 代表 一 个 数 的 链表 (第 一 个 for 循 
环 )， 然 后 重新 排列 这 些 节点 ， 使 遍历 链表 时 这 些 数 按照 顺序 出 现 〈 第 二 个 for 循 环 )。 要 完成 
排序 ， 需 要 保存 两 个 链表 ， 一 个 输入 (无 序 ) 链表 和 一 个 输出 (有 序 ) 链表 。 在 循环 的 每 次 
迭代 过 程 中 ， 从 输入 链表 中 取出 一 个 节点 ， 并 把 它 播 入 到 输出 链表 的 适当 位 置 。 每 个 链表 使 
用 一 个 指向 链表 中 首 节点 的 头 节 点 ， 以 简化 代码 。 如 果 不 使 用 头 节点 ， 把 节点 插入 到 输出 链 
表 中 需要 从 第 一 个 节点 开始 ， 这 需要 额外 的 代码 。 

struct node heada, headb; 

link t, u, x, a = &heada, b; 

for (i=0,t=a; i < N; i++) 

{ 
t->next = malloc(sizeof *t); 
t = t->next; t->next = NULL ; 
t->item = rand() % 1000; 
} 
b = &headb; b->next = NULL; 
for (t = a->next; t != NULL; t = u) 
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{ 
UU = 七 ~>next ; 
for (x = b; x->next != NULL; x = x->next) 
if (x->next->item > t->item) break; 
t->next = x->next; x->next = 七 ; 


程序 3.11 中 的 链表 阐述 了 另 一 种 常见 做 法 ， 在 每 个 链表 的 开始 保留 一 个 称 为 关节 点 的 哑 元 
节点 。 链 表 的 头 节点 的 数据 项 域 可 以 忽略 ， 但 它 的 链 域 必 须 是 指向 链表 中 第 一 个 节点 的 指针 。 
程序 使 用 两 个 链表 : 一 个 用 于 收集 第 一 个 循环 中 的 随机 输入 ， 另 一 个 用 于 收集 第 二 个 循环 中 
的 有 序 输出 。 图 3-8 解 释 了 程序 3.11 在 主 循环 的 一 次 迭代 中 所 做 的 修改 。 从 输入 表 中 取出 下 一 
个 节点 ， 然 后 找 出 它 在 输出 表 中 所 处 的 位 置 ， 再 把 它 链接 到 该 位 置 。 
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图 3-8 链表 排序 

注 : 这 个 图 描述 了 使 用 播 入 排序 ， 把 一 个 (由 a 指向 的 ) 无 序 链表 转换 为 (由 b 指 向 的 ) 有 序 链表 过 程 中 的 一 步 。 
首先 取出 无 序 链表 中 的 第 一 个 节点 ， 并 把 指向 它 的 指针 保存 在 t 中 (上 图 )。 然 后 ， 我 们 遍历 h， 用 语 身 X -> 
next -> item > t- > item (或 者 Xx -> next = NULL) 找到 首 节点 X， 并 把 t 村 入 到 链表 中 X 语 的 位 置 (中 
图 ) 。 这 些 操作 使 得 a 的 长 度 每 次 减少 1，b 的 长 度 每 次 增加 1。 并 使 pb 保持 有 序 状 态 (下 图 )。 不 断 重 复 这 个 
过 程 ， 最 终 a 变 为 空 ，b 中 所 有 节点 都 有 序 。 

在 考虑 向 已 排序 链表 添加 首 节 点 时 ， 在 链表 开始 使 用 头 节点 的 主要 原因 就 变 得 清楚 了 。 这 

个 节点 是 输入 表 中 最 小 元 素 项 的 节点 ， 而 且 可 以 处 于 链表 的 任何 位 置 。 所 以 我 们 有 三 种 选择 : 

。 重 复 for 循 环 ， 查 找 最 小 元 素 项 ， 并 用 和 程序 3.9 同 样 的 方法 建立 一 个 节点 的 链表 。 

。 每 当 我 们 希望 插入 一 个 节点 时 ， 测 试 是 否 输 出 链表 为 空 。 

。 使 用 一 个 哑 元 头 节点 ， 它 的 链接 指向 链表 中 的 首 节点 ， 和 这 里 实现 的 过 程 一 样 。 

第 一 种 选择 不 完美 ， 而 且 需 要 额外 代码 ， 第 二 种 选择 也 不 完美 ， 而 且 需 要 额外 时 间 。 

头 节 点 的 使 用 确实 会 导致 某 些 开销 (额外 代码 ) ， 而 在 许多 常见 的 应 用 中 可 以 避免 头 节点 。 
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例如 ， 程 序 3.10 也 可 以 只 有 输入 链表 (原始 链表 ) 和 输出 链表 (已 经 逆序 的 表 ) ， 因 为 所 有 向 
输出 链表 中 的 插入 都 在 表 的 开始 进行 ， 因 而 那个 程序 中 不 需要 使 用 头 节 点 。 我 们 还 会 看 到 其 
他 一 些 应 用 ， 当 在 链表 未 尾 使 用 哑 元 节点 而 不 是 空 链 表 时 ， 代 码 会 更 简洁 。 关 于 是 否 使 用 哑 
元 节点 没有 硬性 规定 ， 做 出 选择 的 关键 是 把 编程 风格 和 对 程序 性 能 的 影响 结合 考虑 。 优 秀 的 
程序 员 喜 欢 接 受 最 大 限度 地 简化 手头 工作 的 挑战 。 贯 穿 本 书 我 们 会 看 到 几 个 这 样 的 权衡 。 

表 3-1 列 出 了 一 些 链表 常规 用 法 的 备 选 方案 ， 以 供 参 考 。 其 他 一 些 用 法 在 练习 中 讨论 。 在 
表 3-1 中 的 所 有 情况 中 ， 我 们 都 使 用 指针 head 引 用 链表 。 我 们 的 程序 还 使 用 用 于 不 同 操作 的 给 
定 代码 来 管理 指向 节点 的 链接 ， 以 保持 一 致 。 对 于 所 有 常规 用 法 ， 分 配 和 释放 节点 的 内 存 ， 
填 入 节点 中 的 信息 都 是 一 样 的 。 实 现 相 同 操作 且 具 有 健壮 性 的 函数 需要 额外 代码 来 检查 错误 
情况 。 这 个 表 的 目的 在 于 展示 各 种 选择 方案 之 间 的 异同 。 


表 3-1 链表 中 头 和 尾 节 点 /指针 的 常规 用 法 


这 个 表 给 出 了 基本 链表 处 理 操作 的 $ 种 常规 用 法 的 实现 。 这 类 代码 用 于 内 和 侍 链表 处 理 代码 的 简单 应 用 中 。 
循环 、 永 远 非 空 
头 插 入 : head -> next = head; 
在 x 节点 后 插入 t 节 点 : t -> next = x-> next; x -> next = 七 ; 
删除 x 后 的 节点 : x -> next = x -> next -> next; 
遍历 循环 : t = head， 
do {... t=t -> next;} while (t != head); 
测试 是 否 只 有 一 个 元 素 : if (head -> next == head) 
头 指针 ， 尾 节点 为 空 
初始 化 : head = NULL 
在 x 节点 后 插入 t 节 点 ; if (x == NULL) {head=t; head -> next = NULL;} 
else {t -> next = x -> next; x -> next = t;} 
删除 x 后 的 节点 : t = x -> next; x -> next = 七 -> next; 
遍历 循环 : for (t = head; t != NULL; t =t -> next) 
测试 表 是 否 为 空 ，if (head == NULL) 
有 哑 元 头 节点 ， 尾 节点 为 空 
初始 化 : head = malloc (sizeof *head) 
head -> next = NULL; 
在 x 节点 后 插入 t 节 点 ; t -> next = x->- next; x -> next = 七 ; 
删除 x 后 的 节点 : t = x -> next; x -> next = 七 -> next; 
遍历 循环 : for (t = head -> next; t 1= NULL; 七 = 七 ->next) 
测试 表 是 否 为 空 ， if (head -> next == NULL) 
有 了 哑 元 头 、 尾 节点 
初始 化 : head = malloc (sizeof *head) 
z = malioc(Sizeof *Z); 
head -> next = z; Z -> next = Z; 
在 x 节点 后 播 入 t 节 点 : t -> next = x-> next; x -> next = 七 ; 
删除 x 后 的 节点 ; x -> next = x -> next -> next; 
遍历 循环 : for (t = head -> next; tt != 7z; t=t -> next) 
测试 表 是 否 为 空 ， if (head -> next == z) 


还 有 另 一 种 使 用 头 节点 带 来 便利 的 情况 ， 那 就 是 当 我 们 希望 把 链表 指针 作为 参数 传 给 国 
数 ， 使 函数 可 修改 链表 的 时 候 。 这 和 我 们 对 数组 进行 的 处 理 大 致 一 样 。 使 用 头 节 点 可 使 函数 
接受 或 返回 一 个 空 表 。 如 果 不 使 用 头 节 点 ， 我 们 就 需要 一 种 机 制 在 函数 返回 空 表 时 ， 通 知 调 
用 程序 。 另 一 种 机 制 ， 也 是 程序 3.10 中 的 函数 使 用 的 一 种 机 制 ， 是 使 链表 处 理 函 数 把 指向 输 
入 链表 的 指针 作为 函数 的 参数 ， 并 返回 指向 输出 链表 的 指针 。 利 用 这 种 常规 方法 ， 则 不 需要 
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使 用 头 节 点 。 而 且 它 非常 适合 于 递归 链表 处 理 ， 这 种 处 理 在 本 书 中 有 广泛 的 用 处 ( 见 5.1 节 )。 

程序 3.12 声 明了 一 组 实现 链表 基本 操作 的 黑 盒 函数 ， 可 以 避免 重复 内 嵌 的 代码 。 程 序 3.13 
是 程序 3.9 中 描述 的 约瑟夫 选举 问题 的 改造 版 本 ， 可 作为 客户 程序 使 用 这 个 接口 。 识 别 出 计算 
中 使 用 的 重要 操作 并 在 接口 中 定义 它们 ， 可 使 我 们 有 更 大 的 灵活 性 去 考虑 一 些 关 键 操作 的 具 
体 实 现 ， 并 测试 它们 的 高 效 性 。 考 虑 3.5 节 中 程序 3.12 中 定义 的 操作 的 一 种 实现 〈 见 程序 3.14) ， 
但 我 们 可 以 不 改变 程序 3.13 而 去 尝试 其 他 的 方案 ( 见 练习 3.52)。 这 个 主题 将 会 贯穿 全 书 反复 
出 现 。 我 们 将 在 第 4 这 讨 论 更 容易 开发 实现 的 机 制 。 


程序 3.12 链表 处 理 接口 2 
在 以 下 代码 中 定义 也 点 和 链接 的 类 型 ， 声明 了 可 能 对 它们 执行 的 操作 ， 这 个 代码 保存 
在 接口 文件 1ist.h 中 。 我 们 为 链表 节点 分 配 和 释放 内 存 空间 声明 自己 的 函数 。 函 数 
initNodes 可 使 实现 更 方便 。Node 的 Typedef、 函 数 Next 和 Item 可 以 确保 客户 使 用 链表 而 不 依 
赖 于 实现 细节 。 
typedef struct node* link; 
struct node { itemType item; link next; }; 
typedef link Node; 
void initNodes (int); 
link newNode (int); 
void freeNode(link); 
void insertNext (link, link), 
link deleteNext (link); 
link Next (link); 
int Item(link); 


程序 3.13” 约 器 夫 问 题 的 链表 分 配 
这 个 针对 约瑟夫 问题 的 程序 是 一 个 客户 程序 的 例子 ， 它 利 用 了 程序 3.12 中 声明 的 链表 处 理 
的 基本 操作 并 由 程序 3.14 来 实现 。 
#include "list.h" 
main(int argc, char *argv[]) 
{ int i, N= atoi(argv[1])，M = atoi(argv[2]); 
Node t, x; 
initNodes (N); 
for (i = 2, x = newNode(1); i <= N; i++) 
{t= newNode(i); insertNext(x, +); x = t; } 
While (x != Next(x)) 
{ 
for (i = 1; i < M; i++) x = Next (x); 
freeNode (deleteNext (x)); 


printf("%d\n", Item(x)); 
} 


某 些 程序 员 喜 欢 利用 像 程序 3.12 中 那样 的 接口 为 每 个 底层 操作 定义 函数 ， 把 所 有 操作 封装 
在 底层 数据 结构 (例如 链表 ) 中 。 实 际 上 ， 正 如 我 们 将 在 第 4 章 中 看 到 的 那样 ，C 的 类 机 制 使 
得 这 种 做 法 简便 易 行 。 然 而 这 额外 的 抽象 层次 有 时 会 掩盖 只 有 一 些 底层 操作 被 涉及 的 事实 。 
在 本 书 中 我 们 实现 高 层 接口 时 ， 通 常 直接 在 链 式 结构 上 写 底层 操作 ， 可 以 清楚 地 揭示 出 算法 
和 数据 结构 的 核心 细节 。 我 们 将 在 第 4 章 看 到 大 量 的 例子 。 
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通过 瘫 加 更 多 的 链接 ， 可 以 获得 在 链表 中 向 后 移动 的 能 力 。 例 如 ， 我 们 可 以 使 用 一 个 双 
向 链表 来 支持 “寻找 一 给 定 元 素 的 前 一 元 素 ”， 双 向 链表 中 的 每 个 节点 有 两 个 链接 ， 一 个 
(prev) 指向 前 一 节点 ， 另 一 个 (next) 指向 后 一 节点 。 结 合 哑 元 节点 或 循环 链表 ， 我 们 可 以 
确保 对 一 个 双向 链表 中 的 每 一 个 节点 ，x，x -> next -> prev 和 x -> prev -> next 表 示 同 
一 个 节点 。 图 3-9 和 3-10 表 明了 实现 删除 、 向 前 插入 和 疝 后 插入 所 需 的 基本 链接 操纵 。 注 意 对 
于 删除 操作 ， 我 们 并 不 像 在 单 链表 中 那样 ， 需 要 链表 中 前 一 节点 的 额外 信息 (或 者 后 一 节点 
的 额外 信息 )， 因 为 信息 已 经 被 节点 自身 所 包含 。 





图 3-9 双向 链表 中 的 删除 操作 图 3-10 双向 链表 中 的 插入 操作 
注 : 在 双向 链表 中 ， 一 个 指向 节点 的 指针 已 为 该 节点 注 : 要 把 一 个 节点 播 入 到 双向 链表 中 ， 我 们 需要 设置 4 个 
的 删除 提供 了 足够 的 信息 。 给 出 t 后 ， 设 t -> 指针 。 可 以 在 一 个 给 定 的 节点 之 后 (如 图 例 所 示 ) 
next -> prev = 七 -> prev (中 图 )， 并 设 t -> 或 之 前 插入 一 个 新 节点 。 在 给 定 节点 X 之 后 插入 给 定 
prev -> next = t+ -> next (下 图 )。 节点 t 的 过 程 是 : 首先 设置 t+ -> next = x -> next 


和 X -> next -> prev = 七 (中 图 ) ， 然 后 设置 X -> 
next = t 和 t -> prev = x (下 图 )。 


实际 上 ， 双 向 链表 的 主要 意义 在 于 : 当 只 有 一 个 指向 节点 的 链接 信息 上 时， 仍然 可 以 删除 
这 个 节点 。 有 两 种 典型 的 情况 : 一 种 是 链接 在 函数 调用 中 作为 参数 传递 ， 另 一 种 是 节点 中 含 
有 其 他 链接 ， 并 且 是 某 个 其 他 数据 结构 的 一 部 分 。 为 了 提供 这 种 额外 能 力 ， 每 个 节点 中 链接 
所 占用 的 空间 要 加 倍 ， 同 时 使 每 个 基本 操作 的 链接 操纵 数 也 要 加 倍 。 因 而 ， 除 非 有 特别 需要 ， 
一 般 不 使 用 双向 链表 。 我 们 把 详细 实现 方法 的 讨论 推迟 到 9.5 节 的 例子 。 

贯穿 本 书 我 们 使 用 链表 ， 首 先 用 于 基本 的 ADT 实 现 (参阅 第 4 章 ) ， 然 后 用 做 更 复杂 数据 
结构 的 组 件 。 链 表 是 许多 程序 员 初 次 接触 的 、 直 接 处 于 他 们 控制 之 下 的 一 种 抽象 数据 结构 。 
我 们 将 会 看 到 ， 链 表 是 为 大 量 重要 问题 齐 发 高 级 抽象 数据 结构 使 用 的 一 种 核心 工具 。 
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练习 

>3.34 编写 一 个 函数 ， 把 给 定 链表 中 的 最 大 数据 项 移 到 该 表 中 的 最 后 一 个 节点 。 

3.35 编写 一 个 函数 ， 把 给 定 链表 中 的 最 小 数据 项 移 到 该 表 中 的 第 一 个 节点 。 

3.36 ”编写 一 个 函数 ， 重 新 排列 链表 ， 使 在 偶数 位 置 上 的 那些 节点 排 在 奇数 位 置 上 的 那些 节 
点 之 后 ， 并 保持 偶数 节点 和 奇数 节点 的 相对 位 置 关系 不 变 。 

3.37 实现 链表 的 一 段 代 码 ， 使 两 个 给 定 链接 t 和 u 指 向 的 节点 互 换 位 置 。 

03.38 ”编写 一 个 函数 ， 以 链表 指针 作为 参数 ， 并 返回 一 个 指向 该 链表 副本 (一 个 含有 相同 元 
素 、 相 同 排列 顺序 的 新 链表 ) 的 指针 。 

3.39 ”编写 一 个 函数 ， 接 收 两 个 参数 一 一 链表 指针 和 以 链表 指针 作为 参数 的 函数 作为 参数 。 
删除 给 定 链表 中 国 数 对 于 其 中 节点 返回 非 零 值 的 数据 项 。 

3.40 重 做 练习 3.39， 但 要 为 通过 测试 的 节点 建立 副本 ， 并 返回 一 个 指向 包含 这 些 节 点 链表 的 
指针 。 要 求 节 点 排列 顺序 和 原 表 一 致 。 

3.41 使 用 头 节点 实现 程序 3.10 的 一 个 版 本 。 

3.42 不 使 用 头 节 点 实现 程序 3.11 的 一 个 版 本 。 

3.43 使 用 头 节点 实现 程序 3.9 的 一 个 版 本 。 

3.44 实现 一 个 国 数 ， 互 换 一 个 双向 链表 中 给 定 的 两 个 节点 。 

03.45 ”给 出 表 3-1 中 的 一 个 表 项 : 该 表 永 不 为 空 ， 被 一 个 指向 其 首 节 点 的 指针 所 引用 ， 而 且 尾 
节点 有 一 个 指向 自身 的 指针 。 

3.46 给 出 表 3-1 中 的 一 个 表 项 ， 该 循环 链表 有 一 个 哑 元 节点 ， 即 作为 头 节点 又 作为 尾 节点 。 


3.5 链表 的 内 存 分 配 


链表 和 数组 相 比 ， 其 中 一 个 优点 是 链表 在 它们 的 生存 期 内 可 优雅 地 增 大 和 缩小 。 尤 其 是 
不 必 有 预先 知道 它们 使 用 的 最 大 空间 。 这 个 观察 的 一 个 重要 结果 是 : 我 们 可 以 使 几 个 数据 结构 
共享 同一 块 内 存 空间 ， 而 在 任何 时 刻 不 需 要 特别 注意 它们 的 相对 大 小 。 

问题 的 关键 在 于 怎样 实现 系统 函数 ma110c。 举 个 例子 ， 当 我 们 从 链表 中 删除 一 个 节点 时 ， 
要 做 的 一 件 事 是 重新 排列 链表 ， 使 节点 不 再 挂 接 在 链表 中 。 但 系统 如 何 处 理 该 节点 占用 过 的 
空间 呢 ? 系统 又 如 何 循环 利用 空间 ， 使 得 当 一 个 节点 调用 ma11oc， 并 请 求 更 多 空间 时 ， 总 能 
得 到 满足 呢 ? 这 些 问 题 背 后 的 机 制 提供 了 利用 基本 的 链表 处 理 的 另 一 个 例子 。 

与 mna110c 对 应 的 系统 函数 是 free。 当 我 们 使 用 完 已 分 配 的 一 块 内 存 时 ， 就 调用 free 函 数 
通知 系统 这 块 空间 可 以 用 作 他 用 。 动 态 内 存 分 配 就 是 一 个 管理 内 存 ， 并 响应 来 自 客户 程序 的 
malloc 和 free 调 用 的 过 程 。 

当 我 们 像 在 程序 3.9 或 者 程序 3.11 这 样 的 应 用 中 直接 调用 ma11oc 时 ， 所 有 调用 都 请 求 相 同 大 
小 的 内 存 块 。 这 是 典型 的 情况 ， 这 马上 令 我 们 想到 另 一 种 记录 可 供 分 配 的 内 存 的 方法 ， 就 是 使 
用 链表 。 可 以 通过 一 个 单 向 链表 ， 把 所 有 不 属于 正 被 使 用 的 链表 中 的 节点 放 在 一 起 。 我 们 也 称 
这 个 链表 为 空 亲 链表。 当 需 要 为 一 个 节点 分 配 空间 时 ， 就 从 空 闪 链表 删除 一 个 节点 得 到 内 存 空 
间 。 当 从 任何 一 个 链表 中 删除 一 个 节点 时 ， 我 们 的 处 理 办 法 是 把 它 插 入 到 空 闪 链表 中 。 

程序 3.14 是 程序 3.12 中 定义 的 接口 的 一 种 实现 ， 它 包括 了 内 存 分 配 函 数 。 当 与 程序 3.13 一 
起 编译 后 ， 所 产生 的 结果 和 我 们 在 程序 3.9 中 使 用 的 直接 实现 的 结果 一 样 。 

图 3-11 显 示 了 空闲 链表 是 如 何 随 着 节点 释放 而 增 大 的 过 程 。 为 简单 起 见 ， 图 中 假设 基于 
数组 索引 来 实现 链表 (没有 头 节点 )。 
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图 3-11 链表 的 数组 表示 〈( 带 有 空闲 链表 ) 


注 : 图 3-6 的 这 个 版 本 显示 了 维持 从 往 环 链表 中 删除 节点 所 组 成 的 空 亲 链 表 的 结果 ， 空 阅 链 表 中 的 首 节点 的 索引 
在 最 左边 给 出 。 过 程 结 束 时 ,空闲 链表 是 由 所 有 被 删除 数据 项 组 成 的 一 个 链表 。 从 1 开始 顺 着 链接 向 前 遍历 ， 
看 到 元 素 的 顺序 是 2、9、6、3、4、7、1、5， 与 它们 被 删除 的 顺序 正好 相反 。 





这 个 程序 给 出 了 程序 3.12 中 声明 的 函数 的 实现 ， 并 展示 了 一 一 种 国定 大 小 节点 的 内 存 分 配 的 
标准 方法 。 还 建立 了 一 个 初始 化 为 程序 中 使 用 的 最 大 节点 数 的 空闲 链表 ， 所 有 节点 都 链接 在 
一 起 。 那 么 ， 当 客户 程序 分 配 一 个 节点 时 ， 我 们 从 空闲 链表 中 删除 一 个 节点 。 当 客户 程序 释 
放 一 个 节点 时 ， 就 把 该 节点 链接 到 空闲 链表 中 。 

依照 常规 ， 客 户 程序 除了 通过 函数 调用 外 并 不 引用 链表 节点 ， 而 且 返 回 给 客户 程序 的 节 
点 有 自身 链接 。 这 些 常 规 提 供 了 引用 未 定义 指针 时 的 某 种 保护 措施 。 


#include <stdlib.h> 
#include "list.h" 
link freelist; 
void initNodes(int N) 
{ int 1; 
freelist = malloc((N+1)*(sizeof *freelist)); 
for (i = 0; i < N+1; i++) 
freelist [i] .next = &freelist[i+1]; 
freelist [N] .next = NULL; 
} 
link newNode (int i) 
t link x = deleteNext (freelist):; 
x->item = i; x->next = xXx; 
return x; 
} 
void freeNode (link x) 
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{ insertNext (freelist, x); } 
void insertNext (link x, link t) 
{ t->next = x->next; x->next = 七 ; } 
link deleteNext (link x) 
{ link t = x->next; x~>next = t->next: return 七 ; 了 
link Next(link x) 
{ return x->next; } 
int Item(link x) 
{ return x~>item; } 


在 C 环 境 中 实现 一 个 通用 的 内 存 分 配 程序 ， 要 比 我 们 的 简单 例子 所 涉及 的 复杂 许多 。 而 标 
准 库 中 ma11oc 的 实现 也 决 不 是 程序 3.14 所 显示 的 那样 简单 。 两 者 之 间 的 一 个 主要 差别 是 : 
mallac 必 须 处 理 不 同 大 小 (范围 从 极 小 到 极 大 ) 的 节点 请 求 的 存储 分 配 。 为 此 ， 人 们 已 经 研 
究 出 几 种 聪明 算法 。 某 些 现代 系统 采用 的 另 一 种 方法 是 : 使 用 “垃圾 收集 ”(garbage- 
collection) 算法 自动 删除 不 被 任何 链接 引用 的 节点 ， 解 除了 用 户 调用 free 释 放 节 点 的 需要 。 
治 着 这 些 思路 ， 人 们 已 经 研究 出 几 种 聪明 的 存储 管理 算法 。 我 们 不 会 更 详细 地 讨论 它们 ， 是 
因为 它们 的 性 能 特征 依赖 于 特定 系统 和 机 器 的 属性 。 

能 够 利用 关于 一 个 应 用 的 专用 知识 的 程序 ， 常 常 比 用 于 同一 任务 的 通用 程序 更 高 效 。 内 
存 分 配 也 遵从 这 条 定律 。 一 个 必须 处 理 不 同 大 小 的 存储 请 求 的 算法 不 可 能 知道 我 们 将 一 直 请 
求 某 种 大 小 的 内 存 块 ， 因 此 也 不 能 利用 这 一 点 。 了 矛盾 的 是 ， 避 免 通 用 库 国 数 的 另 一 个 原因 是 
这 样 做 使 程序 具有 更 高 的 可 移植 性 。 当 库 发 生变 化 ， 或 者 移 到 一 个 不 同 的 系统 中 时 ， 可 以 防 
止 出 现 意 料 之 外 的 性 能 改变 。 许 多 程序 员 已 经 发 现 ; 使 用 简单 、 类 似 程序 3.14 的 内 存 分 配 程 
序 是 一 种 开发 高 效 、 可 移植 地 使 用 链表 的 程序 的 高 效 途 径 。 这 种 方法 将 会 应 用 到 本 书 所 讨论 
的 大 量 算法 中 ， 这 些 算法 对 于 内 存 管理 系统 做 出 了 类 似 的 要 求 。 
练习 
03.47 编写 一 个 程序 ， 释 放 (用 一 个 指向 它们 的 指针 调用 free) 给 定 链表 中 的 所 有 节点 。 
3.48 编写 一 个 程序 ， 释 放 链 表 中 可 以 被 5 整除 的 位 置 上 (第 5 个 、 第 10 个 、 第 15 个 …… ) 的 
节点 。 
03.49 编写 一 个 程序 ， 释 放 链 表 中 偶数 位 置 上 (第 2 个 、 第 4 个 、 第 6 个 ……) 的 节点 。 
3.50 实现 程序 3.12 中 的 接口 ， 在 a11ocNode 和 freeNode 中 分 别 直接 使 用 ma110c 和 free 。 
3.51 ”对 程序 3.13 用 M = 2，N = 103，104，105 和 105 进 行 实 验 研 究 ， 用 ma11oc 和 free ( 见 练习 
3.50 比 较 程 序 3.14 中 内 存 分 配 国 数 的 运行 时 间 。 
3.52 不 用 指针 而 用 数组 索引 (不 设 头 节 点 ) 实现 程序 3.12 中 的 接口 ， 按 照 图 3-11 的 方式 ， 跟 
踪 你 程序 的 操作 。 
03.53 ”假定 你 有 一 组 不 带 空 指针 的 节点 ， 也 即 每 个 节点 指向 自身 ， 或 者 指向 这 组 中 的 其 他 某 
个 节点 。 证 明 如 果 从 任 一 节点 开始 ， 沿 着 链接 遍历 ， 最 终 进 入 一 个 回路 。 
。3.54 在 练习 3.53 的 条 件 下 ， 编 写 一 段 代码 ， 根 据 给 定 的 指向 某 个 节点 的 指针 ， 找 出 从 那个 节 
点 的 链接 遍历 所 到 达 的 不 同 节点 的 数目 ， 过 程 中 不 修改 任何 节点 。 限 定 使 用 额外 的 常数 大 小 
的 内 存 空 间 。 
.3.55 在 练习 3.54 的 条 件 下 ， 编 写 一 个 函数 ， 对 于 给 定 的 两 个 链表 ， 通 过 向 前 遍历 确定 最 终 是 
否 会 在 同一 个 回路 上 结束 。 . : 
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3.6 字符 串 


我 们 使 用 术语 字符 囊 代表 一 个 变 长 的 字符 数组 ， 它 由 一 个 起 始点 和 一 个 标志 末尾 的 字符 
串 终结 符 组 成 。 字 符 串 作为 低层 数据 结构 具有 较 大 的 价值 。 原 因 有 二 。 第 一 ， 许 多 计算 应 用 
会 涉及 文本 数据 的 处 理 ， 而 文本 可 直接 用 字符 串 表 示 。 第 二 ， 许 多 计算 机 系统 支持 对 内 存 字 
节 的 直接 高 效 的 访问 ， 而 字 节 直接 对 应 字符 串 中 的 字符 。 也 就 是 说 ， 在 很 多 情况 下 ， 字 符 串 
的 抽象 与 应 用 对 机 器 性 能 的 需求 相 吻合 。 

对 于 一 个 以 串 终结 符 结束 的 字符 序列 ， 其 抽象 表示 可 用 多 种 方式 实现 。 比 方 说， 我 们 可 
以 使 用 链表 ， 尽 管 这 种 选择 将 会 要 求 为 每 个 字符 花费 一 个 指针 。 本 节 中 讨论 的 基于 数组 的 具 
体 实 现 就 是 内 舱 C 的 一 个 实现 。 在 第 4 章 中 我 们 还 将 讨论 其 他 的 实现 方法 。 

字符 串 和 字符 数组 的 区 别 在 于 长 度 。 两 者 都 表示 内 存 中 的 连续 区 域 ， 但 是 数组 的 长 度 在 
它 创 建 时 就 已 经 确定 ， 而 字符 串 的 长 度 在 程序 的 执行 过 程 中 可 能 改变 。 这 种 区 别 具 有 值得 注 
意 的 含义 ， 我 们 很 快 就 会 探讨 这 一 点 。 

我 们 需要 为 一 个 字符 串 保 留 内 存 ， 要 么 在 编译 期 间 声 明 一 个 固定 长 度 的 字符 数组 ， 要 么 
在 执行 时 间 调 用 ma11oc。 一 旦 为 数组 分 配 空间 ， 就 可 以 填 人 字符 ， 从 头 开始 ， 以 字符 串 终 结 
符 结 束 。 如 果 没 有 字符 串 终 结 符 ， 那 么 一 个 字符 串 完 全 等 价 于 一 个 数组 。 有 了 字符 捉 终 结 符 ， 
我 们 就 可 以 在 更 高 的 抽象 层次 上 处 理 数组 ， 并 且 可 以 只 考虑 数组 中 从 开始 点 到 字符 串 终 结 符 
中 所 包含 的 有 意义 的 信息 。 在 C 语 言 中 ， 字 符 串 终结 符 的 值 为 9，， 也 是 大 家 所 知 的 “\0”。 

例如 要 找 出 字符 串 的 长 记 ， 就 需要 计算 出 开始 点 和 终结 符 之 间 的 字符 个 数 。 表 3-2 给 出 了 
我 们 通常 对 字符 串 进 行 的 简单 操作 。 它 们 都 涉及 从 头 到 尾 扫描 字符 串 的 过 程 。 许 多 这 样 的 函 
数 在 《<string.h> 中 被 声明 为 库 函 数 ， 可 直接 使 用 。 然 而 ,许多 程序 员 在 简单 应 用 程序 的 人 入 
代码 中 都 会 使 用 经 过 轻微 修改 的 版 本 。 实 现 同样 操作 的 健壮 的 程序 应 该 有 额外 的 代码 检查 错 
误 情 况 。 我 们 在 这 里 引入 这 些 代码 不 仅 要 突出 它 的 简单 性 ， 还 要 直接 展示 其 性 能 特征 。 


表 3-2 基本 字符 串 处 理 操作 


这 个 表 使 用 两 种 不 同 的 C 语 言 基 本 国 数 ， 给 出 了 基本 字符 串 处 理 操 作 的 实现 。 指 针 方 法 使 代码 更 紧凑 ， 而 索引 
数组 的 方法 是 表达 算法 的 一 种 更 自然 的 途径 ， 也 使 代码 更 容易 理解 。 追 加 操作 的 指针 版 本 和 索引 数组 版 本 是 相同 的 ， 
前 缀 比较 的 指针 版 本 可 由 标准 比较 操作 而 得 ， 就 和 索引 数组 的 版 本 相同 ， 因 而 被 省 略 了 。 进 行 所 有 实现 、 所 花费 的 
时 间 与 字符 串 的 长 度 成 正比 。 | 

索引 数组 版 本 

计算 字符 串 的 长 度 (strlen(a)) 
for (i = 0; a[i]!=0; i++); return 了 ; 
复制 (strcpy(a，b)) 
for (i = 0; (a[i]=b[i])1=0; i++); 
比较 (strcmp(a，b)) 
for (i = 0; a[i]==b[i]; i++) 
if (a[i]==0) return 0; 
return a[i] - blil; 
前 缀 比较 (strncmp(a, b，strlen(a))) 
for (i = 0; a[i]==b[i]; i++) 
if (a[i]==0) return 0; 
if (a[i]==0) return 0; 
return a[i] - b[i]; 
追加 (strcat(a，b)) 
strcpy(a+strien(a), b) 
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计算 字符 串 的 长 度 (strlen(a)) 

b = ai while (*b++); return b~a-l; 
复制 (strcpy(a，b)) 

while (x¥att+ = *b++); 
比较 (strcmp(a，b)) 

While (xatt+ = *b++) 

if (*(a-1)==0) return 0; 

return *(a-1) -*(b~1) 


我 们 在 字符 串 上 所 进行 的 最 重要 的 操作 之 一 是 比较 (compare) 操作 ， 它 可 以 告诉 我 们 两 
个 字符 串 中 的 哪 一 个 在 字典 中 先 出 现 。 为 了 讨论 方便 ， 我 们 假想 出 一 本 理想 化 的 字典 (因为 
实际 中 的 字符 串 包含 着 标点 、 大 小写 字母、 数字 等 ， 相 当 复杂 )， 并 且 从 头 到 尾 逐 个 字符 比较 
字符 串 。 这 个 顺序 称 为 字典 顺序 。 我 们 也 可 以 用 比较 函数 确定 字符 串 是 否 相等 。 依 照常 规 ， 
如 果 第 一 个 参数 字符 串 在 字典 中 出 现在 第 二 个 参数 字符 串 之 前 ， 比 较 函 数 返回 一 个 负数 ， 如 
果 这 两 个 字符 串 相 等 ， 比 较 函 数 返 回 0， 如 果 第 一 个 参数 字符 串 依照 字典 次 序 出 现在 第 二 个 参 
数字 符 捉 之 后 ， 比 较 函 数 返 回 1 。 值 得 注意 的 是 进行 两 个 字符 串 的 等 同性 测试 与 确定 两 个 字符 
串 指 针 是 否 相等 并 不 一 样 。 如 果 两 个 字符 串 指针 相同 ， 那 么 它们 所 指向 的 字符 串 也 相同 ， 但 
我 们 也 可 以 使 用 不 同 的 指针 指向 相同 的 字符 串 (相同 的 字符 序列 )。 有 许多 应 用 都 把 信息 保存 
为 字符 串 ， 然 后 通过 比较 字符 串 处 理 或 访问 那些 信息 ， 所 以 比较 操作 是 一 个 特别 重要 的 操作 
在 3.7 节 和 本 书 的 很 多 其 他 地 方 ， 我 们 将 会 看 到 一 个 特别 的 例子 。 

程序 3.15 是 一 个 简单 的 字符 串 处 理 任务 的 实现 ， 如 果 一 个 短 模式 字符 串 出 现在 一 个 长 字符 
串 之 内 ， 该 程序 打印 模式 出 现 的 位 置 。 对 于 这 个 任务 已 有 几 种 复杂 的 算法 ， 但 这 个 简单 的 算 
法 展示 了 在 用 C 语 言 处 理 字符 串 时 所 使 用 的 几 个 常规 做 法 。 

这 个 程序 从 命令 行 接受 一 个 单词 ， 在 一 个 (假设 非常 大 的 ) 文本 字符 串 里 找 出 出 现 这 个 
单词 的 所 有 地 方 。 我 们 把 文本 字符 串 声明 为 一 个 定 长 数组 〈 就 像 在 程序 3.6 中 那样 用 ma11oc ) ， 
并 利用 getchar( ) 从 标准 输入 设备 读 取 。 在 调用 此 程序 之 前 ， 系 统 为 从 命令 行 参 数 读 取 的 字符 
串 分 配 内 存 。 我 们 从 argv[1] 中 可 以 找到 字符 串 指针 。 对 于 a 中 的 每 个 开始 位 置 1， 我 们 都 尝试 
将 该 位 置 处 开始 的 子 串 与 p 进 行 逐 个 字符 比较 ， 测 试 其 是 否 相 等 。 当 成 功 地 到 达 p 的 未 尾 时 ， 
则 打印 该 单词 在 文本 中 出 现 的 起 始 位 置 i。 

#include <stdio.h> 

#define N 10000 

main(int argc, char *argv[]) 

{ ipt i, j, t; 
char a[lN], *p = argv[1]; 
for (i = 0; i < N-1; a[i] = 七 ， i++) 
if ((t = getchar()) == EOF) break; 
a[i] = 0; 
for (i = 0; a[li] != 0; i++) 
{ 
for (j = 0; plj] != 0; j++) 
if (a[i+j] != p[j]) break; 
if (p[j] == 0) printf("%d ", 1); 
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} 
printf("\n"); 


CC 
”字符 串 处 理 为 通晓 库 函 数 的 性 能 提供 了 一 个 极 具 说 明 力 的 范例 。 问 题 是 库 函 数 的 运行 时 
间 可 能 要 比 我 们 预期 的 时 间 多 。 例 如 ， 确 定 字 符 囊 的 长 度 所 需 的 时 间 与 字符 囊 的 长 度 成 正比 。 
忽略 这 个 事实 会 造成 严重 的 程序 性 能 问题 。 例 如 ， 快 速 浏览 一 下 标准 库 以 后 ， 我 们 可 能 把 程 
序 3.15 中 的 模式 匹配 实现 为 以 下 形式 ; 

for (i = 0; i < strlen(a); i++) 

if (strncmp(&a[i], p, strlen(p)) == 0) 

printf("%d ", i); 

不 幸 的 是 ， 不 论 在 循环 体 中 使 用 什么 代码 ， 这 段 代 码 所 花费 的 时 间 至 少 与 a 的 长 度 的 平方 
成 正比 。 因 为 每 次 循环 都 要 遍历 a 以 确定 其 长 度 。 这 个 开销 相当 可 观 ， 甚 至 难以 想象 运行 这 
个 程序 检查 本 书 (超过 100 万 个 字符 ) 是 否 包含 某 个 单词 ， 将 需要 数 万 亿 条 指令 。 像 这 样 的 问 
题 是 难以 检测 的 ， 因 为 调试 小 规模 的 字符 串 时 ， 程 序 会 运行 得 很 好 。 但 投入 实际 使 用 后 ， 将 
会 逐渐 变 慢 ， 其 至 永远 不 能 完成 。 而 且 ， 我们 只 有 知道 这 些 问题 的 存在 ， 才 能 避免 这 些 问题 。 

这 种 错误 称 为 性 能 错误 ， 原 因 是 可 以 验证 其 代码 是 正确 的 ， 但 程序 并 不 能 像 我 们 期 望 的 
那样 高 效 地 运行 。 在 我 们 正式 开始 研究 高 效 算法 之 前 ， 必 须 确保 已 经 消除 了 这 类 性 能 错误 。 
虽然 标准 库 有 许多 优点 ， 但 还 应 该 意识 到 它们 用 于 这 种 简单 函数 的 危险 性 。 

本 书 中 反复 提 到 的 基本 概念 之 一 是 同一 抽象 表示 的 不 同 实现 ， 它 可 以 导致 差异 极 大 的 性 
能 特征 。 举 个 例子 ， 如 果 我 们 记录 字符 串 的 长 度 ， 可 以 支持 这 样 一 个 功能 ， 在 常数 时 间 内 返 
回 一 个 字符 串 的 长 度 ， 但 其 他 操作 的 运行 会 惕 得 多 。 一 种 实现 可 能 适合 于 一 种 应 用 ， 另 一 种 
实现 方法 可 能 适合 于 另 一 种 应 用 。 

库 函 数 时 常 不 能 保证 为 所 有 应 用 提供 最 佳 的 性 能 。 即 使 (例如 strlien) 库 函 数 的 性 能 记 
录 良 好 ， 我 们 也 不 能 保证 不 涉及 性 能 变化 的 未 来 的 某 些 实现 方法 会 对 我 们 的 程序 产生 负面 的 
影响 。 这 个 问题 在 算法 和 数据 结构 的 设计 中 至 关 重 要 。 因 此 我 们 必须 铭记 在 心 。 我 们 将 在 第 4 
章 讨论 其 他 例子 和 更 进一步 的 结果 。 

串 其 实 是 指向 字符 的 指针 。 在 一 些 情况 下 ， 这 种 实现 可 以 使 字符 串 处 理 函 数 的 代码 更 紧 
次。 例如 把 一 个 字符 串 复制 到 另 一 个 字符 串 ， 我 们 可 以 用 ， 

while (*at+ = 本 b++) ; 
代替 

for (i = 0; a[i] != 0; i++) a[i] = b[i]; 

或 用 表 3-2 中 给 出 的 第 三 种 选择 。 这 两 种 引用 字符 串 的 方法 是 等 价 的 ， 但 在 不 同 的 机 器 上 可 
能 会 产生 不 同性 能 的 代码 。 一 般 而 言 ， 使 用 数组 版 本 清晰 明了 ， 而 指针 版 本 可 减少 代码 数 
量 。 对 于 特定 应 用 中 频繁 执行 的 特定 代码 ， 需 要 不 断 进行 细致 地 研究 ， 才 能 确定 哪 一 种 版 
本 更 好 。 

由 于 串 的 大 小 可 变 ， 因 而 它 的 内 存 分 配 较 之 链表 的 内 存 分 配 更 复杂 。 实 际 上 ， 一 种 为 串 
预 留 空间 的 完全 通用 的 机 制 恰好 就 是 系统 提供 的 mna110c 函 数 和 free 国 数 。 如 3.6 节 所 述 ， 我 们 
已 经 研究 了 这 个 问题 的 各 种 算法 ， 这 些 算法 的 性 能 特征 与 系统 和 机 器 有 关 。 内 存 分 配 问题 在 
开始 时 可 能 显得 相当 严重 ， 因 为 我 们 处 理 的 是 指向 字符 囊 的 指针 ， 而 不 是 处 理 字符 自身 。 实 
际 上 ， 在 C 语 言 的 代码 中 我 们 并 没有 假设 所 有 字符 串 都 会 有 各 自分 配 的 一 块 内 存 。 我 们 更 倾向 
于 假设 每 个 字符 串 有 一 块 不 确定 的 内 存 空间 ， 每 块 空间 只 能 容纳 字符 串 和 它 的 终结 符 。 当 热 
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行 建立 和 延长 字符 串 的 操作 时 我 们 必须 非常 小 心 ， 保 证 有 足够 的 分 配 空间 。 作 为 一 个 例子 ， 
我 们 将 在 3.7 节 中 讨论 读 取 字符 串 并 操纵 它们 的 一 个 程序 。 

练习 

>3.56 ”编写 一 个 程序 ， 接 受 一 个 字符 串 作为 参数 ， 并 打印 一 张 表 。 对 于 在 字符 串 中 出 现 的 每 
个 字符 ， 该 表 给 出 该 字符 以 及 它 出 现 的 频率 。 | 
>3.57 ”编写 一 个 程序 ， 检 查 一 给 定 字符 串 是 否 是 回 文 的 程序 〈 顺 读 和 倒 读 都 一 样 的 字符 串 ) ， 
不 考虑 空格 。 例 如 ， 对 于 字符 串 if i had a hifi， 你 的 程序 应 该 报告 成 功 。 

3.58 ”假定 字符 串 的 内 存 空间 是 各 自分 配 的 。 编 写 函 数 strcpy 和 strcat 的 新 版 本 ， 要 求 分 配 
内 存 并 返回 一 个 指向 新 字符 串 的 指针 作为 结果 。 

3.59 ”编写 一 个 程序 ， 从 标准 输入 设备 接受 一 个 串 作 为 参数 ， 并 读 和 一 组 单词 的 序列 (字符 
序列 之 间 由 空格 隔 开 ) ， 打 印 那些 为 参数 串 的 子 串 的 单词 。 

3.60 编写 一 个 程序 ， 在 一 个 给 定 的 字符 串 中 用 单个 空格 代替 一 个 以 上 空格 组 成 的 子囊 。 
3.61 实现 程序 3.15 的 指针 版 本 。 

03.62 ”编写 一 个 高 效 的 程序 ， 确 定 一 个 给 定 字符 申 中 最 长 的 空格 序列 的 长 度 ， 要 求 在 字符 囊 
中 检查 的 字符 尽 可 能 的 少 。 提 示 : 随 着 空格 序列 长 度 的 增加 ， 你 的 程序 的 速度 也 应 该 加 快 。 
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数组 、 链 表 和 字符 串 都 为 顺序 组 织 数 据 提供 了 简单 途径 。 它 们 提供 了 我 们 可 以 使 用 的 第 
一 层 抽象 ， 使 得 我 们 可 以 按照 高 效 处 理 对 象 的 方式 组 织 对 象 。 确 定 了 这 些 抽象 之 后 ， 我 们 可 
以 在 层次 模型 中 利用 它们 构建 更 复杂 的 结构 。 我 们 可 以 构造 多 维 数组 、 链 表 数 组 、 字 符 串 数 
组 等 。 在 这 一 节 里 考虑 这 些 结构 的 例子 。 

正如 一 维 数组 对 应 向 量 一 样 ， 有 两 个 索引 的 二 维 数组 对 应 和 矩 阵 ， 并 在 数学 计算 中 具有 广 
谤 应 用 。 例 如 ， 我 们 可 以 利用 以 下 代码 计算 抑 阵 a 和 b 的 乘积 ， 并 把 结果 保存 在 矩阵 c 中 。 

for (i= 0; i < N; i++) 

for (j = 0; j < N; j++) 

for (k = 0, c[ij[j] = 0.0; k < N; k++) 
c[i] [j] += a[il] Ck]*b[k] (Cj]; 

我 们 经 常 磁 到 数学 上 的 一 些 计 算 ， 自 然 地 表示 成 多 维 数组 的 形式 。 

除了 数学 应 用 之 外 ， 另 一 种 组 织 信 息 的 方法 是 利用 行 、 列 组 成 的 表格 。 学 生 的 课程 成 绩 
表 就 可 以 表示 这 样 的 结构 : 行 表 示 学 生 、 列 表示 科目 。 在 C 语 言 中 这 样 的 表 就 可 以 表示 成 一 个 
二 维 数组 ， 两 个 索引 分 别 表 示 行 和 列 。 如 果 我 们 希望 构造 一 个 100 个 学 生 、10 个 科目 的 数组 ， 
可 以 用 grades[100][101 声 明 这 个 数组 ， 并 用 grades[i][j] 引 用 第 i 个 学 生 第 门 课程 的 成 绩 。 
要 计算 其 中 一 门 课程 的 平均 分 ， 可 以 把 一 列 中 的 元 素 相 加 ， 再 除 以 行 数 即 得 。 要 计算 某 个 学 
生 课 程 的 平均 分 ， 只 要 把 那 行 中 的 元 素 相 加 ， 再 除 以 列 数 即 可 ， 以 此 类 推 。 二 维 数组 在 这 种 
应 用 中 的 使 用 非常 广泛 。 在 一 台 计 算 机 上 ， 利 用 二 维 以 上 的 数组 非常 便利 和 直接 : 教师 可 能 
在 学 生成 绩 表 利用 第 三 个 索引 记录 年 份 。 

二 维 数组 的 表示 非常 方便 ， 而 当 这 些 数 最 终 存 储 在 计算 机 的 内 存 中 时 ， 实 际 上 是 存储 在 
一 维 数组 中 。 在 许多 编程 环境 中 , 二 维 数组 是 以 行为 主 序 存储 在 一 维 数组 中 在 数组 a[M][IN] 中 ， 
它 的 第 一 行 (a[0][0]-a[0]LN-1]) 占据 一 维 数组 的 前 N 个 位 置 ， 它 的 第 二 行 (a[1][0]-~ 
a[1][N-11) 占据 一 维 数组 接 下 来 的 N 个 位 置 ， 以 此 类 推 。 按 照 以 行为 主 序 的 顺序 ， 在 本 节 开 
始 的 和 抱 阵 乘法 代码 中 的 最 后 一 行 完全 等 价 于 以 下 代码 
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c[N*i+j] = a[lN*i+k]*b[N*k+j] 


同样 的 模式 可 推广 到 更 高 维 ， 为 数组 提供 便利 。 在 C 语 言 中 多 维 数组 可 以 用 一 种 更 一 般 的 
方式 实现 ; 我们 可 以 把 它们 定义 为 符合 数据 结构 (复合 数组 )。 这 样 提高 了 数组 的 灵活 性 ， 比 
如 说 ， 复 合 数组 大 小 不 同 。 

我 们 在 程序 3.6 中 看 到 了 一 种 动态 分 配 数组 空间 的 方法 ， 它 使 我 们 可 以 把 程序 用 于 大 小 不 
同 的 问题 ， 而 无 需 重新 编译 程序 。 我 们 希望 针对 多 维 数组 也 有 一 种 类 似 的 方法 。 但 如 果 在 编 
译 时 ， 不 知道 多 维 数组 的 大 小 如 何 给 它 分 配 内 存 空间 ? 也 就 是 说 ， 如 果 我 们 想 要 能 够 引用 一 
个 程序 的 数组 中 的 元 素 ， 比 如 说 a[i][j]， 但 还 不 能 声明 它 为 〈 举 个 例子 ) int a[M][N]， 这 
是 由 于 W 和 N 的 值 未 知 。 以 行为 主 序 时 ， 像 下 面 的 语句 ; 


int* a = malloc(M*N*sizeof (int)); 


程序 3.16 “二 维 数组 分 配 | 
这 个 函数 动态 地 为 二 维 数组 (复合 数组 ) 分 配 内 存 。 我 们 首先 分 配 一 个 指针 数组 ， 然后 
为 每 一 行 分 配 内 存 。 通 过 这 个 函数 ,语句 


int **a = malloc2d(M, N); 
分 配 一 个 Mx N 的 整 型 数组 。 


int **malloc2d(int r, int c) 
{ int i; 
int **t = malloc(r * sizeof (int *)); 
for (i = 0; i < r; i++) 
t[i] = malloc(c * sizeof (int)); 
return t; 


} 





将 分 配 一 个 Mx AN 的 数组 ， 但 这 个 办 法 并 不 是 在 所 有 C 语 言 环境 下 都 可 行 ， 这 是 因为 并 不 是 所 
有 实现 都 是 以 行为 主 序 的 。 程 序 3.6 基 于 数组 的 数组 的 定义 ， 给 出 了 二 维 数组 的 一 种 解决 方法 。 

程序 3.17 显 示 了 一 种 类 似 的 复合 结构 的 用 法 . 字符 串 数 组 。 乍 一 看 ， 因 为 我 们 对 字符 串 
的 定义 是 字符 组 成 的 数组 ， 我 们 也 许可 以 把 字符 串 数组 表示 为 多 维 数组 。 但 是 我 们 用 于 C 语 
言 中 字符 串 的 具体 表示 是 一 个 指向 字符 数组 起 始 地 址 的 指针 。 因 此 字符 串 数组 也 可 看 作 指针 
数组 ， 如 图 3-12 所 示 。 我 们 仅仅 通过 重新 排列 数组 中 的 指针 ， 就 可 以 得 到 重新 排列 字符 串 的 
效果 。 程 序 3.17 使 用 了 库 函 数 qsort 。 实 现 这 些 函 数 是 第 6 章 到 第 9 章 的 一 般 主题 ， 而 在 第 7 
章 特别 关注 。 这 个 例子 显示 了 处 理 字符 串 的 一 种 典型 情况 ， 把 字符 本 身 读 入 到 一 个 巨大 的 一 
维 数组 中 ， 保 存 指向 单个 字符 串 的 指针 〈 使 用 字符 串 终 结 符 作 为 划分 界线 ) ， 然 后 操纵 这 些 
指针 。 


程序 3.17 对 字符 串 数组 进行 排序 


这 个 程序 显示 了 一 个 重要 的 串 处 理 函 数 : 重新 排列 一 组 字符 串 使 其 有 序 。 我 们 把 字符 串 
读 入 一 个 可 以 容纳 它们 的 足够 大 的 缓冲 区 中 ， 并 把 指向 每 个 字符 串 的 指针 保存 在 一 个 数组 中 ， 
然后 重新 排列 这 些 指针 ， 使 指向 最 小 字符 串 的 指针 放 在 数组 中 的 第 一 个 位 置 ， 指 向 次 小 字符 
串 的 指针 放 在 数组 中 的 第 二 个 位 置 ， 以 此 类 推 。 

实际 进行 排序 的 qsort 库 函数 有 4 个 参数 : 指向 数组 起 始 位 置 的 指针 、 对 象 的 个 数 、 每 个 
对 象 的 大 小 和 一 个 比较 函数 。 程 序 通过 盲目 地 重新 排列 表示 对 象 (本 例 中 是 字符 串 指 针 ) 的 
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数据 块 ， 以 及 使 用 一 个 指向 void 的 指针 作为 参数 的 比较 函数 ， 达 到 独立 于 所 排序 对 象 类 型 的 
目的 。 比 较 函 数 strcmp 的 代码 返回 结果 ， 是 一 个 指向 char 指 针 的 指针 类 型 。 要 真正 访问 串 中 
的 第 一 个 字符 进行 比较 ， 就 需要 三 个 指针 ， 其 一 取得 数组 的 索引 (也 是 一 个 指针 ) ， 其 二 取得 
指向 字符 串 的 指针 (使 用 索引 )， 其 三 取得 该 字符 (使 用 指针 )。 


我 们 在 排序 中 使 用 了 一 种 不 同 的 方法 ， 使 得 排序 函数 和 搜索 函数 与 类 型 无 关 ( 见 第 4 章 和 
第 6 章 )。 


#include <stdio.h> 
#include <stdlib.h> 
#include <string.h> 
#define Nmax 1000 
#define Mmax 10000 
char buf [Mmax]; int M = 0; 
int compare(void *i, void *j) 
{ return strcmp(*(char **)i, *(char **)j); } 
main() 
{ int i, N; 
char* 已 [Nmax] ; 
for (N= 0; N < Nmax; N++) 
{ 
a[N] = &buf [M] ; 
if (scanf("%s", a[N]) == EOF) break; 
M += strlen(a[N])+1; 
了 
qsort(a, N, sizeof (char*), compare); 
for (i = 0; i < N; i++) printf("%s\n", a[i]); 


} 





图 3-12 字符 串 排 序 


注 : 在 处 理 字 符 事 时 ， 我 们 通常 使 用 一 个 指向 包含 那个 字符 事 的 给 冲 区 的 指针 (上 图 )， 因 为 指针 要 比 长 度 大 小 
可 变 的 字符 囊 自 身 更 容易 操纵 。 例 如 ， 一 次 排序 的 结果 是 把 指针 重新 排列 ， 使 得 顺序 访问 它们 时 可 以 给 出 
字符 囊 的 字符 表 顺 序 (字典 顺序 ) 。 | 
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我 们 已 经 见 过 字符 串 数组 的 另 一 种 应 用 ， 在 C 语 言 程序 中 ，argv 数 组 用 于 向 main 中 传递 参 
数字 符 串 。 系 统 把 用 户 键 人 的 命令 行 存储 在 一 个 字符 串 的 缓冲 区 中 ， 并 向 main 传 递 指向 那个 
缓冲 区 中 字符 串 的 指针 数组 的 指针 。 我 们 使 用 转换 函数 来 计算 对 应 某 些 参数 的 数字 ， 而 其 他 
一 些 参数 直接 作为 字符 串 使 用 。 

我 们 也 可 以 只 用 链表 来 构造 复合 数据 结构 。 图 3-13 显 示 了 多 重 链表 的 例子 ;节点 有 多 个 
链 域 并 属于 分 别 维持 的 链表 。 在 算法 设计 中 ， 我 们 经 常会 用 多 个 链表 构造 复杂 数据 结构 ， 但 
要 保证 它们 可 以 高 效 处 理 数 据 。 例 如 ， 一 个 双向 链表 就 是 多 重 链表 ， 它 满足 以 下 的 约束 条 件 : 
x->1->r 和 Xx->r->1 都 等 于 x。 在 第 5 章 我 们 会 考察 一 个 重要 得 多 的 数据 结构 ， 其 中 每 个 节点 有 
两 个 链接 。 





图 3-13 多 维 链表 


注 : 我 们 可 以 把 带 有 两 个 链 域 的 节点 在 两 个 独立 链表 中 联系 起 来 ， 其 中 每 个 链表 使 用 一 个 属于 自己 的 链 域 。 这 
里 右 链 域 按照 一 个 次 序 (例如 可 以 是 节点 被 创建 时 的 次 序 ) 组 织 节点 ， 而 左 链 域 接 照 另 一 个 不 同 的 次 库 
(例如 本 例 中 的 排序 次 序 ， 可 能 是 插入 排序 只 使 用 左 链 域 的 结果 ) 组 织 节 点 。 洛 着 a 的 右 链 域 ， 按 照 节 点 创 
建 的 次 序 访 问 节点 ; 活着 b 的 左 链 域 ， 我 们 以 排序 次 序 访 问 节点 。 

如 果 一 个 多 维 矩 阵 是 稀 芍 的 〈 相 对 较 少 元 素 非 零 ) ， 那 么 我 们 可 以 使 用 多 维 链表 而 不 是 多 
维 数组 来 表示 它 。 对 于 和 矩阵 中 的 每 个 值 可 以 使 用 一 个 节点 代表 ， 每 一 维 用 一 个 链接 代表 ， 谍 
链接 指向 那 一 维 中 的 下 一 个 元 素 。 这 种 安排 降低 了 存储 空间 ， 从 抑 阵 的 最 大 索引 的 乘积 降 到 
和 非 零 元 素 的 个 数 成 正比 ， 但 缺点 是 增加 了 许多 算法 的 计算 时 间 ， 因 为 它们 必须 遍历 多 个 链 
表 才 能 访问 单个 元 素 。 

为 了 见识 更 多 复合 数据 结构 的 例子 ， 并 突出 索引 数据 结构 和 链表 数据 结构 之 间 的 差别 ， 
我 们 接 下 来 讨论 表示 图 的 数据 结构 。 图 是 一 种 基本 的 组 合 对 象 ， 由 称 为 顶点 的 集合 和 顶点 之 
间 称 为 边 的 连接 的 集合 组 成 。 我 们 在 第 1 章 的 连通 问题 中 已 经 遇 到 过 图 了 。 

假设 图 有 VY 个 顶点 和 E 条 边 。 并 用 范围 在 0 和 V-1 之 间 的 E 对 整数 集合 定义 这 个 图 。 也 就 是 说 ， 
我 们 假设 顶点 的 编号 为 整数 0，1，…，V-1， 这 些 边 分 别 由 顶点 对 指定 。 像 在 第 1 章 中 一 样 ， 
我 们 用 对 i-j 来 定义 顶点 i 和 j 之 闻 的 连接 ， 因 而 j-i 和 i-j 的 意义 相同 。 由 这 样 的 边 组 成 的 图 称 
为 无 向 图 。 在 第 7 部 分 将 讨论 其 他 类 型 的 图 。 

一 种 表示 图 的 直接 方法 是 使 用 二 维 数 组 ， 也 称 为 邻接 埠 阵 (adjacency matrix)。 通 过 邻接 
和 矩阵 我 们 可 以 马上 断定 顶点 i 和 j 之 间 是 否 存在 一 条 边 ， 只 需要 检查 邻接 矩阵 中 行 i 和 列 j 处 是 否 
非 零 值 。 对 于 正 考 虑 的 无 向 图 ， 如 果 和 矩阵 中 行列 处 存在 一 项 ， 那 么 行 /和 列 ; 处 也 存在 一 项 ， 
因而 和 矩阵 是 对 称 的。 图 3-14 显 示 了 一 个 无 向 图 的 邻接 矩阵 的 示例 。 程 序 3.18 显 示 当 给 定 一 组 边 
作为 输入 时 ， 我 们 如 何 创建 一 个 邻接 矩阵 。 
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图 3-14 图 的 邻接 矩阵 表示 


注 : 图 由 一 组 顶点 和 一 组 连接 顶点 的 边 组 成 。 为 简单 起 见 ， 我 们 对 顶点 指定 索引 (从 0 开始 的 连续 非 页 整数 ) 。 一 
个 邻接 矩阵 是 一 个 表示 图 的 二 维 数组 : 当 且 仅 当 顶点 ji 和 j 之 间 存 在 边 时 ， 行 i 和 列 / 处 设 为 1。 数 组 关于 对 角 线 
对 称 。 依 照 惯例 ， 我 们 把 对 角 线 上 的 项 都 设 为 1 (每 个 顶点 都 和 自身 连接 ) 。 例 如 第 6 行 (和 第 6 列 ) 标明 顶点 
6 与 顶点 0，4 和 6 连接 。 


程序 3.18 ”图 的 邻接 矩阵 表示 “ 


这 个 程序 读 和 定义 无 向 图 的 _ 组 边 ， 并 创建 这 个 图 的 邻接 年 阵 表示 。 如 果 在 图 中 顶点 1 和 
顶点 j 或 者 顶点 j 和 顶点 i 之 间 存 在 一 条 边 ， 就 把 a[ij[jj 和 a[ji[i] 设 置 为 1， 如 果 不 存在 这 样 
的 边 ， 则 设置 为 0。 这 个 程序 假设 顶点 数 V 是 一 个 编译 时 常数 ， 否 则 需要 动态 分 配 表示 邻接 矩 
阵 的 数组 〈 见 练习 3.72) 


#include “stdio .h> 
#include <stdlib.h> 
main() 
{ int i, j, adj[Vv) [V] ; 
for (i = 0; i < Vi i++) 
for (j = 0; j “Vi j++) 
adj[i][j] = 0; 
for (i = 0; i <V; i++) adj[ij[i] = 1; 
while (scanf ("%d %d\n", &i, &j) == 2) 
{ adj[il[j] = 1; adj[j][i = 1; 了 
} 


另 一 种 表示 图 的 直接 方法 是 使 用 链表 数组 ， 也 称 为 邻接 表 (adjacency list) 。 我 们 为 每 个 
顶点 保存 一 个 链表 ， 其 中 每 个 节点 表示 连接 到 该 顶点 的 一 个 顶点 。 对 于 正 考 虑 的 无 向 图 ， 如 
果 在 ;的 链表 中 存在 节点 /， 那 么 在 /的 链表 中 必定 存在 节点 !。 图 3-15 显 示 了 一 个 无 向 图 的 邻接 
表 的 示例 ， 程序 3.19 显 示 了 当 给 定 一 组 边 作 为 输入 时 ， 我 们 如 何 创建 一 个 邻接 表 。 
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图 3-15 图 的 邻接 表 表 示 
注 : 对 于 图 3-14 中 的 图 ， 这 里 的 表示 方法 使 用 了 一 个 链表 数组 。 所 需 的 空间 正比 于 节点 数 和 边 数 的 总 和 。 为 找 出 
连接 到 给 定 顶 点 i 的 索引 ， 我 们 考察 数组 的 第 个 位 置 ， 它 包含 了 一 个 链表 指针 ， 链 表 中 为 每 个 和 i 连接 的 顶点 
保存 一 个 节点 。 





程序 3 19 图 的 邻接 表 江 示 ”01 
这 个 程序 读 入 定义 无 向 图 的 一 组 边 ， 并 创建 这 个 图 的 邻接 表 表 示 。 图 的 链接 表 是 一 个 链 
表 数 组 ， 每 个 元 素 表 示 一 个 顶点 ， 其 中 第 /个 表 是 由 所 有 连接 到 第 /个 顶点 的 顶点 组 成 的 链表 。 
#include <stdio.h> 
#include <stdlib.h> 
typedef struct node *]link; 
struct node 
{ int v; link next; }; 
link NEW(int v, link next) 
{ link x = malloc(sizeof *X) ; 
X->V = Ti XxX->next = next,; 
return xX; 
} 
main() 
{ int i, j; link adj[V] ; 
for (i = 0; i < V; i++) adj[i] = NULL; 
while (scanf ("%a hd\n", &i, &j) == 2) 
{ 
adj[j] = NEW(i, adj[il]); 
adj[i] = NEW(j, adj[i]); 
} 
} 


这 两 种 图 的 表示 方法 都 是 简单 数据 结构 的 数组 一 一 都 对 每 个 顶点 描述 了 依附 该 顶点 的 边 。 
对 邻接 矩阵， 这 个 简单 数据 结构 实现 为 一 个 索引 数组 ， 对 邻接 表 ， 则 实现 为 一 个 链表 。 

因此 当 我 们 表示 一 个 图 时 ， 就 会 直接 面 对 空间 权衡 的 问题 。 邻 接 矩 阵 使 用 的 空间 正比 于 
训 ， 邻 接 表 使 用 的 空间 正比 于 V+ E。 如 果 边 数 较 少 (这 样 的 图 称 为 稀 玻 图 ，sparse graph)， 那 
么 邻接 表 表 示 方 法 使 用 少 得 多 的 空间 ， 如 果 大 多 数 顶点 对 都 由 边 相连 接 (这 样 的 图 称 为 稠密 
图 )， 那 么 邻接 矩阵 表示 方法 更 可 取 ， 因 为 它 不 涉及 链接 。 某 些 算法 使 用 邻接 矩阵 表示 更 高 效 ， 
因为 它 允 许 在 常数 时 间 内 解决 “顶点 ;和 和 顶点 /之 间 是 否 有 边 相连 ”的 问题 ， 其 他 算法 则 使 用 邻 
接 表 表示 更 高 效 ， 因 为 它 允 许 我 们 在 正比 于 V+E 的 时 间 内 而 不 是 妈 的 时 间 内 处 理 一 个 图 的 所 有 


72 第 二 这 分 数据 结 均 


边 。 在 5.8 节 中 我 们 会 看 到 一 个 关于 此 类 权衡 的 具体 例子 。 

图 的 邻接 矩阵 和 邻接 表 表 示 都 可 以 被 直接 扩展 , 用 于 处 理 其 他 类 型 的 图 (例如 , 练习 3.71) 。 
它们 是 我 们 将 在 第 七 部 分 考虑 的 大 多 数 图 处 理 算法 的 基础 。 

为 了 总 结 本 章 ， 让 我 们 来 考虑 一 个 例子 。 它 展示 了 使 用 复合 数据 结构 ， 提 供 了 在 3.2 节 所 
讨论 的 简单 几何 问题 的 一 个 高 效 解决 方案 。 这 个 问题 是 ，d 已 知 ， 希 望 求 出 在 单位 正方 形 内 的 
点 组 成 的 集合 中 ， 有 多 少 点 可 被 长 度 小 于 d 的 直线 相连 。 

程序 3.20 使 用 了 一 个 二 维 数组 链表 来 改进 程序 3.8 的 运行 时 间 ， 当 N 足 够 大 时 ， 它 的 改进 为 
原来 的 J。 它 把 单位 正方 形 分 成 相等 大 小 的 更 小 正方 形 网 格 。 然 后 ， 对 于 每 个 正方 形 建立 一 
个 落 入 该 正方 形 中 所 有 点 的 链表 。 二 维 数组 提供 了 快速 访问 给 定点 的 附近 点 集 的 能 力 。 当 我 
” 们 预先 不 知 有 多 少 点 会 落 入 每 个 网 格 正方 形 时 ， 链表 提供 了 存储 这 个 未 知 点 集 的 灵活 性 。 


a wp 
本 程序 阐述 了 为 程序 3.8 的 几何 计算 选择 恰当 的 数据 结构 ， 可 以 所 高 它 的 效率 。 它 把 单位 
正方 形 划分 成 网 格 ， 并 维持 一 个 二 维 链表 数组 ， 使 每 个 网 格 正 方形 对 应 一 个 链表 。 我 们 把 网 
格 划 分 得 足够 精细 ， 以 使 距离 任 一 给 定点 小 于 d 的 所 有 点 要 么 落 入 同一 个 网 格 ， 要 么 落 在 相 邻 
网 格 。 函 数 ma110c2d 和 程序 3.16 中 的 类 似 ， 但 用 于 类 型 为 link 的 对 象 ， 而 不 是 类 型 int。 


#include <math.h> 
#include <stdio.h> 
#include <stdlib.h> 
#include "Point.h" 
typedef struct node* link; 
struct node { point p; link next; }; 
link **grid; int G; float d; int cnt = 0; 
gridinsert (float x, float y) 
{ int i, j; link s; 

int X = x*G +1; int Y = y*G+1; 

link t = malloc(sizeof *t); 

t->p.x = Xi t->p.y = y; 

for (i = X-1; i <= X+1; i++) 

for (j = Y-1; j <= Y+1; j++) 
for (s = grid[i][j]; s != NULL; s = s->next) 
if (distance(s->p, t->p) < d) cnt++; 
t->next = grid[X] [Y] ; grid[X] [Y] = 七; 





main(int argc, char *argv[]) 
{ int i, j, N = atoi(argv[1]); 
d = atof(argv[2]); G = i/d; 
grid = malloc2d (G+2, G+2); 
for (i = 0; i < G+2; i++) 
for (j = 0; j < G+2; j++) 
grid[i] [j] = NULL; 
for (i = 0; i < N; i++) 
gridinsert (randFloat (), randFloat()); 
printf("%d edges shorter than %f\n", cnt, d); 
} 





程序 3.20 使 用 的 空间 正比 于 1/d? + N， 但 运行 时 间 为 O(dN2) ， 当 d 较 小 时 ， 这 个 运行 时 间 
相对 于 程序 3.8 的 蛮 力 算法 有 实质 性 的 改进 。 例 如 N = 10'，d = 0.001 时 ， 我 们 可 以 在 高 效 的 线 
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性 时 间 和 空间 内 解决 这 个 问题 ， 而 该 问题 的 蛮 力 算法 将 花费 不 可 接受 的 时 间 。 我 们 也 可 以 把 
这 个 数据 结构 作为 解决 其 他 几何 问题 的 基础 。 例 如 ， 与 第 1 章 的 合并 一 查找 算法 结合 ， 可 以 给 
出 求解 平面 上 的 N 个 随机 点 的 集合 是 否 能 够 用 长 度 为 d 的 直线 连接 起 来 的 渐 近 线性 算法 ， 这 是 
一 个 网 络 和 电路 设计 中 引起 关注 的 基本 问题 。 
正如 在 本 节 中 我 们 已 经 看 过 的 示例 所 显示 的 那样 ， 从 使 用 的 基本 抽象 结构 构建 用 于 不 同 

类 型 的 结构 数据 和 的 对 象 和 序列 的 复合 的 复杂 结构 并 没有 止境 ， 不 论 是 隐 含 还 是 显 式 的 连接 。 
这 些 示 例 要 用 结构 化 的 数据 达到 完全 一 般 化 还 有 一 步 之 愧 ， 我 们 将 在 第 5 章 中 看 到 。 然 而 在 迈 
出 这 一 步 之 前 ， 我 们 要 考虑 使 用 链表 和 数组 可 以 建立 的 重要 抽象 数据 结构 
将 有 助 于 我 们 开发 下 一 层 的 共性 。 

练习 

3.63 编写 程序 3.16 的 另 一 个 版 本 ， 使 之 能 够 处 理 三 维 数组 。 

3.64 修改 程序 3.17 , 单独 处 理 输 入 字符 串 ( 从 输入 设备 读 和 每 个 字符 串 以 后 就 为 它 分配 内 存 ) 。 
你 可 假设 所 有 字符 串 都 少 于 100 个 字符 。 

3.65 ”编写 一 个 程序 ， 用 0 或 1 填充 一 个 二 维 数 组 ， 如 果 1 和 j 的 最 大 公 因 子 为 1， 则 设 a[i][I] 
为 1， 否则 设 为 0。 

3.66 ”结合 使 用 程序 3.20 和 程序 1.4， 开发 一 个 确定 NW 个 点 的 集合 是 否 能 被 小 于 d 的 边 连 接 起 来 
的 高 效 程序 。 . 

3.67 编写 一 个 程序 ， 把 一 个 二 维 数组 表示 的 稀疏 托 阵 ， 转换 成 为 只 4 有 非 零 值 的 多 重 链表 。 
。3.68 实现 多 维 链表 表示 和 矩阵 的 给 阵 乘法 。 | 

>3.69 假定 输入 对 为 0-2，1-4，2-5，3-6，0-4，6-0 和 1-3， 给 出 程序 3.18 建 立 的 邻接 矩阵 。 
>3.70 假定 输入 对 为 0-2，1-4，2-5，3-6，0-4，6-0 和 1-3， 给 出 程序 3.19 建 立 的 邻接 表 。 
03.71 有 向 图 是 一 个 其 顶点 连接 有 方向 的 图 : 边 是 从 一 个 顶点 到 另 一 个 顶点 。 假 设 输入 对 表 
示 有 向 图 ，i-j 指 定 了 从 i 到 j 的 边 ， 完 成 练习 3.69 和 练习 3.70。 同 时 使 用 箭头 表示 边 的 方向 把 
图 画 出 来 。 

3.72 修改 程序 3.18， 把 顶点 数 作为 命令 行 参数 ， 然 后 动态 分 配 邻 接 矩 阵 。 

3.73 修改 程序 3.19， 把 顶点 数 作为 命令 行 参数 ， 然 后 动态 分 配 链表 数组 。 
03.74 ”编写 一 个 函数 ， 使 用 图 的 邻接 和 矩阵， 对 于 给 定 的 顶点 a 和 4b5， 计 算 满 足以 下 条 件 的 顶点 c 
的 个 数 ， 存 在 一 条 从 a 到 c 且 从 c 到 4b 的 边 。 
co3.75 使 用 邻接 表 解 答 练习 3.74。 
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为 数据 以 及 程序 处 理 这 些 数据 的 方法 开发 抽象 模型 ， 是 使 用 计算 机 解决 这 些 问题 的 过 程 
中 的 一 个 重要 部 分 。 在 每 天 的 程序 设计 中 (例如 在 第 3 章 讨论 的 数组 和 链表 ) 会 看 到 体现 这 一 
原理 的 较 低 层次 的 例子 ， 也 可 以 在 求解 问题 的 过 程 中 看 到 体现 这 一 原理 的 较 高 层次 的 例子 
(正如 第 1 章 所 示 ， 我 们 使 用 合并 一 查找 森林 来 解决 连通 性 问题 ) 。 在 这 一 章 里 ， 我 们 考虑 柚 象 
数据 类 型 (abstract data type，ADT) ， 它 允许 使 用 高 级 抽象 进行 编程 。 通 过 使 用 抽象 数据 类 
型 ， 可 以 将 编程 时 对 数据 的 概念 转换 为 从 任何 特定 的 数据 结构 表示 和 算法 实现 中 分 离 出 来 。 

所 有 的 计算 机 系统 都 基于 抽象 层次 : 首先 采用 位 抽象 模型 ， 它 可 以 从 硅 以 及 其 他 材料 的 
某 些 物理 属性 中 归纳 出 二 进 制 值 0 和 1， 接 着 ， 采 用 抽象 机 器 模型 ， 它 来 自 某 些 位 集合 值 的 动 
态 属性 ， 然 后 ， 采 用 程序 设计 语言 的 抽象 模型 ， 通 过 机 器 语言 编程 来 控制 机 器 去 认识 它 ， 最 
后 ， 采 用 算法 的 抽象 概念 ， 可 用 C 语 言 编 程 实现 。 抽 象 数据 类 型 允许 我 们 将 这 一 过 程 进 行 得 
更 远 ， 开 发 出 某 些 计算 任务 在 更 高 一 级 的 抽象 机 制 ， 它 的 层次 要 比 C 系 统 提供 的 更 高 一 些 ， 
还 允许 开发 出 适合 于 各 种 应 用 领域 解决 问题 的 专 有 抽象 机 制 ， 并 使 用 这 些 基 本 的 机 制 建立 高 
级 的 抽象 机 制 。 抽 象 数 据 类 型 给 了 我 们 一 个 不 断 扩大 的 工具 集合 ， 我 们 可 以 利用 它 解决 新 的 
问题 。 

一 方面 ， 使 用 抽象 的 机 制 可 以 让 我 们 从 关心 程序 如 何 实现 的 细节 上 得 到 解放 。 另 一 方面 ， 
当 程 序 的 性 能 重要 时 ， 我 们 需要 知道 基本 操作 的 开销 。 我 们 使 用 很 多 已 经 内 置 于 机 器 内 部 的 
基本 抽象 ， 它 们 提供 了 机 器 指令 的 基础 。 我 们 用 软件 实现 其 他 的 抽象 ， 或 者 仍然 使 用 那些 以 
前 写 好 了 的 系统 软件 所 提供 的 抽象 机 制 。 通 常 我 们 根据 基本 的 抽象 机 制 来 建立 更 高 级 的 抽象 
机 制 。 所 有 的 抽象 层次 均 遵 循 同样 的 原则 : 我 们 想 要 确定 程序 中 的 关键 操作 和 数据 中 的 关键 
特征 ， 以 便 在 抽象 层次 中 精确 定义 它们 ， 并 开发 出 支持 它们 的 高 效 具 体 机 制 。 本 章 将 讨论 体 
现 这 个 原则 的 许多 例子 。 

为 了 开发 出 新 的 抽象 层 ， 我 们 需要 定义 (define) 想 要 操纵 的 抽象 对 象 ， 以 及 在 这 些 对 象 
上 执行 的 操作 。 我 们 需要 使 用 一 些 数据 结构 来 表示 (represent) 数据 以 及 实现 (implement- 
ation) 操作 。 我 们 还 需要 保证 那些 对 象 能 方便 地 用 来 解决 应 用 问题 (练习 的 要 点 )。 这 些 评论 
同样 适用 于 简单 的 数据 类 型 ， 在 第 3 章 讨论 的 支持 数据 类 型 的 基本 机 制 做 重要 扩展 之 后 ， 将 可 
用 于 我 们 的 目的 。 

定义 4.1 抽象 数据 类 型 是 指 只 通过 接口 进行 访问 的 数据 类 型 (一 组 值 和 值 上 的 操作 集合 ) 。 
我 们 将 那些 使 用 ADT 的 程序 叫做 客户 ， 将 那些 确定 数据 类 型 的 程序 叫做 实现 。 

对 数据 类 型 是 抽象 的 所 做 出 的 关键 区 别 在 于 “只 ”这 个 字 。 对 于 ADT,， 客 户 程序 除了 通 
过 接口 中 提供 的 那些 操作 外 ， 并 不 访问 任何 数据 值 。 数 据 的 表示 和 实现 操作 的 函数 都 在 接口 
的 实现 里 面 ， 和 客户 完全 分 离 。 接 口 对 于 我 们 来 说 是 不 条 明 的 ,客户 不 能 通过 接口 看 到 方法 
的 实现 。 

举 个 例子 ， 在 3.1 节 的 程序 3.3 数 据 类 型 的 接口 ， 显 式 声 明了 point 的 数据 结构 是 浮 点 数 对 ， 
它 的 成 员 函 数 分 别 为 x 和 y。 实 际 上 ， 数 据 类 型 的 这 种 使 用 方式 在 大 型 软件 系统 中 非常 普遍 : 
我 们 开发 一 组 关于 如 何 表 示 数 据 的 约定 (并 定义 一 组 关联 操作 )， 而 且 在 接口 中 实现 了 这 些 约 
定 ， 客 户 程序 可 以 使 用 它们 构建 一 个 大 的 系统 。 数 据 类 型 保证 了 系统 的 所 有 部 分 都 与 核心 系 
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统 的 数据 结构 的 表示 一 致 。 尽 管 这 种 策略 有 价值 ， 但 有 一 个 缺点 : 如果 我 们 需要 改变 数据 的 
表示 ， 那 么 我 们 就 需要 改变 所 有 客户 程序 。 程 序 3.3 又 一 次 提供 了 一 个 简单 的 例子 : 开发 数据 
类 型 的 原因 之 一 是 使 客户 程序 方便 操作 点 ， 同 时 期 望 客户 在 需要 时 可 以 访问 单独 的 坐标 。 但 
是 如 果 不 改变 所 有 客户 程序 ， 就 不 可 能 把 它 变 成 不 同 的 表示 〈 例 如 极 坐 标 ， 三 维 坐 标 ， 或 者 
单个 坐标 的 不 同 数据 类 型 等 ) 。 

实现 3.4 节 【程序 3.12) 的 一 个 简单 的 表 处 理 接口 是 朝 着 ADT 的 第 一 步 。 在 我 们 考虑 的 客 
户 程序 (程序 3.13) 中 ， 采 用 了 只 通过 接口 中 定义 的 操作 访问 数据 的 约定 ， 因 而 能 够 考虑 改 
变 表示 ， 而 不 需 改变 客户 程序 ( 见 练习 3.52)。 采 用 这 种 约定 来 使 用 数据 类 型 ， 就 好 像 它 是 抽 
象 的 ， 但 却 在 接口 中 给 我 们 留 下 可 见 的 细微 缺陷 ， 因 为 客户 仍然 可 用 数据 表示 ， 即 使 偶然 访 
问 接口 中 的 数据 ， 我 们 也 必须 小 心 以 保证 客户 不 依赖 于 接口 。 采 用 真实 的 ADT， 我 们 并 不 为 
客户 提供 任何 数据 类 型 的 信息 ， 因 而 我 们 可 以 随意 改变 它 。 

定义 4.1 并 没有 指定 接口 、 数 据 类 型 以 及 要 描述 的 操作 。 这 种 不 精确 性 是 必要 的 ， 因 为 指 
定 这 种 信息 的 所 有 共性 需要 形式 的 数学 语言 ， 最 终 会 导致 难 解 的 数学 问题 。 这 个 问题 在 程序 
设计 语言 的 设计 中 是 重要 的 。 我 们 将 在 讨论 ADT 示 例 之 后 进一步 考虑 这 个 规范 问题 。 

ADT 作 为 一 种 组 织 现代 大 型 软件 系统 的 高 效 机 制 而 出 现 。 它 们 为 限制 〈 潜 在 复杂 的 ) 算 
法 和 关联 的 数据 结构 以 及 使 用 算法 和 数据 结构 的 (潜在 大 量 ) 程序 之 间 的 接口 大 小 及 复杂 性 
提供 了 一 种 途径 。 这 样 做 令 它 较 容易 地 理解 作为 整体 的 大 型 应 用 程序 。 此 外 ， 不 像 一 些 简单 
的 数据 类 型 ，ADT 为 便于 改变 或 改进 系统 中 的 基本 数据 结构 和 算法 提供 了 所 需 的 灵活 性 。 最 
重要 的 是 ，ADT 接 口 定义 用 户 和 实现 的 一 种 协议 ， 为 它们 之 间 相 互通 信和 提供 了 一 种 精确 手段 。 

我 们 在 这 一 章 详细 考察 ADT 是 因为 它们 还 在 数据 结构 和 算法 的 研究 中 起 着 重要 作用 。 实 
际 上 ， 对 于 本 书 中 考虑 的 几乎 所 有 算法 ， 开 发 它们 的 基本 动机 是 为 了 在 许多 计算 任务 中 起 着 
关键 作用 的 某 些 基础 性 ADT 的 基本 操作 提供 高 效 实现 。 设 计 ADT 只 是 满足 应 用 需求 的 第 一 步 ， 
我 们 还 需要 开发 出 相关 操作 的 切实 可 行 的 实现 ， 以 及 使 实现 可 行 的 潜在 数据 结构 。 这 些 任 务 是 
本 书 的 主题 。 此 外 ， 像 在 第 1 章 中 的 示例 那样 ， 直 接 使 用 抽象 模型 开发 和 比较 算法 及 数据 结构 
的 性 能 特征 : 一 般 而 言 ， 我 们 首先 会 开发 使 用 ADT 的 应 用 程序 来 解决 问题 ， 然 后 开发 这 个 ADT 
的 多 种 实现 ， 并 比较 它们 的 效率 。 在 这 一 章 里 ， 我 们 通过 许多 例子 详细 讨论 这 个 一 般 过 程 。 

C 程 序 员 经 常 使 用 数据 类 型 和 ADT。 在 较 低级 ， 当 只 利用 C 提 供给 整数 的 操作 来 处 理 整 数 
时 ， 我 们 一 般 使 用 系统 定义 的 整数 的 抽象 操作 。 整 数 也 可 在 某 些 新 的 机 器 上 表示 ， 而 且 可 用 
其 他 方法 实现 操作 ， 但 只 使 用 整数 指定 操作 的 程序 才 可 在 新 机 器 上 正确 工作 。 在 这 种 情况 下 ， 
各 种 C 对 于 整数 的 操作 组 成 了 接口 ， 我 们 的 程序 就 是 客户 ， 且 系统 的 硬件 和 软件 提供 了 这 种 实 
现 。 只 要 数据 类 型 足够 抽象 ， 无 需 改 变 程序 ， 我 们 就 可 以 把 它们 移植 到 有 不 同 整数 或 浮 点 数 
表示 的 新 机 器 上 (尽管 这 种 想法 并 没有 达到 我 们 期 望 的 那样 )。 

在 较 高 级 ， 如 我 们 所 见 的 ，C 程 序 员 常 常 把 接口 定义 为 描述 某 个 数据 结构 操作 集 的 .h 文 件 
的 形式 ， 而 其 实现 则 定义 为 某 个 独立 的 .c 文 件 。 这 种 安排 为 用 户 和 实现 者 提供 了 一 种 约定 ， 
而 且 是 C 编 程 环境 中 所 找到 的 标准 库 的 基础 。 然 而 ， 许 多 这 样 的 库 包 含 某 种 数据 结构 的 操作 ， 
因此 也 可 以 构造 数据 类 型 ， 但 不 是 抽 稍 数据 类 型 。 例 如 ，C 的 字符 串 库 就 不 是 ADT， 因 为 使 用 
字符 串 的 程序 知道 字符 串 〈 字 符 数 组 ) 是 如 何 表示 的 。 一 般 都 会 通过 数组 索引 或 者 指针 运算 
直接 访问 字符 串 。 举 个 例子 ， 如 果 不 改 变 客户 程序 ， 我 们 就 不 能 转 到 字符 串 的 链表 表示 。 我 
们 在 3.4 节 和 3.5 节 考虑 的 链表 的 内 存 分 配 接口 和 实现 也 具有 这 一 性 质 。 相 比 之 下 ，ADT 人 允许 我 
们 开发 的 实现 ， 不 仅 可 以 使 用 操作 的 不 同 实现 ， 而 且 还 可 以 涉及 潜在 不 同 的 数据 结构 。 再 次 ， 
表征 ADT 的 关键 差别 是 要 求 只 通过 接口 访问 数据 类 型 。 
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4.1 抽象 对 象 和 对 象 集 


应 用 中 使 用 的 数据 结构 常常 包含 大 量 各 种 类 型 的 信息 ， 其 中 某 些 信 息 可 能 属于 多 个 独立 
的 数据 结构 。 例 如 ， 个 人 数据 文件 可 能 包含 人 名 、 地 址 和 各 种 其 他 人 员 信 息 的 记录 ， 而 每 一 
个 记录 可 能 需要 属于 某 个 用 于 搜索 特定 雇员 的 数据 结构 ， 或 者 另 一 记录 可 能 属于 用 于 回答 统 
计 查 询 的 数据 结构 ， 或 者 有 其 他 的 原因 和 方式 。 

尽管 数据 结构 的 多 样 性 和 复杂 性 ， 但 是 还 有 一 大 类 计算 应 用 涉及 数据 对 象 的 普通 操作 ， 
而 且 由 于 某 些 特定 的 原因 ， 需 要 访问 关联 它们 的 信息 。 许 多 要 求 的 操作 是 由 基本 计算 过 程 发 
展 而 来 ， 因 此 它们 是 大 量 应 用 所 和 需 的 。 许 多 在 本 书 中 讨论 的 基本 算法 ， 也 可 以 高 效 地 应 用 到 
建立 抽象 层 的 工作 中 ， 可 以 高 效 地 为 客户 程序 提供 执行 这 些 操作 的 能 力 。 因 此 ， 我 们 将 会 详 
细 考 虑 与 此 操作 关联 的 大 量 ADT。 它 们 定义 了 抽象 对 象 集 合 上 与 对 象 类 型 无 关 的 各 种 操作 。 

在 第 3 章 我 们 已 经 讨论 了 简单 数据 类 型 的 用 法 ， 可 以 写 出 不 依赖 于 对 象 类 型 的 代码 ， 其 中 
我 们 使 用 typedef 来 指定 项 的 类 型 。 这 种 方法 允许 我 们 对 于 整数 和 浮 点 数 使 用 同一 代码 ， 只 需 
改变 typedef 即 可 。 使 用 指针 ， 对 象 类 型 可 以 任意 地 复杂 。 当 我 们 使 用 这 种 方法 时 ， 我 们 就 做 
了 在 对 象 上 所 执行 的 操作 的 隐 含 假设 ,而 且 我 们 没有 隐 含 来 自 客户 程序 的 数据 表示 。ADT 为 
我 们 提供 了 使 在 数据 对 象 上 执行 操作 做 出 明确 假设 的 一 种 方法 。 

我 们 将 在 4.8 节 详细 考虑 建立 通用 数据 对 象 ADT 的 一 般 机 制 ， 它 根据 文件 Item.h 中 定义 的 
接口 ， 为 我 们 提供 声明 Item 类 型 变量 的 能 力 ， 并 且 把 这 些 变量 用 于 赋值 语句 、 函 数 参数 以 及 
冰 数 返回 值 。 在 接口 中 ， 我 们 明确 地 定义 了 算法 在 通用 对 象 上 执行 所 需 的 操作 。 这 种 机 制 允 
许 我 们 无 需 向 客户 程序 提供 关于 数据 表示 的 任何 信息 ， 也 就 真 地 给 我 们 一 个 真实 的 ADT。 

然而 ， 对 于 许多 应 用 我 们 想 要 考虑 的 不 同 的 通用 对 象 的 类 型 既 简 单 又 类 似 ， 而 且 尽 可 能 
地 高 效 实现 也 很 重要 ， 因 而 我 们 常常 使 用 简单 数据 类 型 ， 而 不 是 真 的 ADT。 具 体 来 说 ， 我 们 
常常 使 用 描述 对 象 自身 的 Item.h 文 件 ， 而 不 使 用 接口 。 最 常见 的 是 ， 这 种 描述 包含 了 定义 数 
据 类 型 的 typedef 和 定义 操作 的 若干 个 宏 。 例 如 ， 对 于 我 们 在 数据 (超出 可 由 typedef 定 义 的 
通用 数据 类 型 ) 上 执行 的 惟一 操作 是 eq 的 应 用 (测试 两 个 项 是 否 相 等 )， 我 们 会 使 用 Item.h 文 
件 ， 它 由 以 下 两 行 代 码 组 成 : 

typedef int Item 

#define eq(A, B) (A == B) . 


在 实现 某 个 算法 的 代码 中 ， 任 何 带 有 行 #inciude Item.h 的 客户 程序 都 可 以 使 用 eq 来 测试 两 
个 项 是 否 相 等 〈 也 可 在 声明 、 赋 值 语 句 和 函数 参数 及 返回 值 中 使 用 ) 。 我 们 也 可 以 使 用 字符 串 
的 客户 程序 ， 例 如 ， 把 Item.h 改 变 为 

typedef char* Item; 

#define eq(A, B) (strcmp(A, B) == 0) . 


这 种 安排 并 不 包含 ADT 的 使 用 。 因 为 特定 的 数据 表示 可 被 任何 包含 Item.h 文 件 程序 使 用 。 
我 们 通常 会 增添 对 项 所 作 的 其 他 简单 操作 的 宏 调 用 或 者 函数 调用 例如， 打印 项 、 读 取 项 ， 
或 给 它们 设置 随机 值 ) 。 我 们 采用 在 客户 程序 中 的 约定 ， 使 用 项 就 好 像 在 ADT 中 定义 了 它们 ， 
允许 我 们 在 代码 中 不 指定 基本 对 象 的 类 型 ， 而 没有 任何 性 能 惩罚 。 为 此 目的 而 使 用 真实 的 
ADT， 对 于 许多 应 用 而 言 过 于 复杂 ， 但 在 探讨 过 许多 其 他 例子 之 后 ， 我 们 仍 会 在 4.8 节 讨论 这 
样 做 的 可 能 性 。 原 则 上 ， 可 以 把 这 项 技术 应 用 于 任何 复杂 数据 类 型 ， 尽 管 类 型 越 复杂 ， 我 们 
越 希 望 考虑 使 用 真实 的 ADT。 

解决 了 通用 对 象 数据 类 型 的 实现 方法 之 后 ， 我 们 就 可 以 转 到 讨论 对 象 集合 上 。 本 书 中 所 
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分 析 的 许多 数据 结构 和 算法 用 于 实现 基本 的 ADT， 它 包括 抽象 对 象 集合 ， 由 以 下 两 个 操作 构 
建 : 

“向 集合 中 插入 (insert) 一 个 新 对 象 。 

。 从 集合 中 删除 (delete) 一 个 对 象 。 
我 们 把 这 样 的 ADT 称 为 广义 队列 。 为 方便 起 见 ， 我 们 还 常常 包括 明确 初始 化 (initialize) 数据 
结构 的 操作 和 统计 (count) 数据 结构 中 项 个 数 的 操作 (或 者 测试 是 否 为 空 的 操作 ) 。 或 者 我 
们 会 定义 若干 合适 的 返回 值 把 这 些 操作 包含 进 insert 和 delete 操 作 中 。 我 们 还 希望 销 奴 
(destroy) 数据 结构 或 者 复制 (copy) 数据 结构 。4.8 节 将 讨论 这 些 操作 。 

当 和 希望 插入 一 个 对 象 时 ， 我 们 的 目标 明确 。 但 是 当 从 集合 中 删除 一 个 对 象 时 ， 我 们 会 选 
择 哪个 对 象 呢 ? 对 象 集合 的 不 同 ADT 表 示 可 用 不 同 准则 以 及 关联 各 种 准则 的 不 同 约定 来 表征 ， 
这 些 准 则 可 以 决定 delete 操 作 中 哪个 对 象 被 删除 。 此 外 ， 我 们 还 会 遇 到 除了 insert 和 delete 操 作 
之 外 的 大 量 其 他 自然 操作 。 针 对 各 种 不 同 的 删除 准则 和 其 他 约定 ， 我 们 在 本 书 中 考虑 的 许多 
算法 和 数据 结构 的 设计 ， 就 是 用 于 支持 高 效 实现 这 些 操 作 的 各 种 子 集 。 这 些 ADT 概 念 上 简单 ， 
应 用 广泛 ， 并 且 它 们 是 许多 计算 任务 的 核心 ， 因 而 它们 值得 给 予 更 多 的 关注 。 

我 们 讨论 了 几 种 基本 的 数据 结构 及 其 性 质 ， 并 且 给 出 了 它们 的 应 用 示例 。 同 时 ， 使 用 这 
些 基本 数据 结构 作为 示例 ， 来 说 明 用 它们 开发 ADT 的 基本 机 制 。 在 4.2 节 中 ， 我 们 分 析 下 推 栈 ， 
它 的 规则 是 执行 删除 一 个 对 象 时 删除 那个 最 新 插入 的 对 象 。 在 4.3 节 将 讨论 栈 的 应 用 ，4.4 节 讨 
论 栈 的 实现 ， 包 括 使 用 特殊 的 方法 来 保证 应 用 和 实现 的 分 离 。 在 讨论 完 栈 之 后 ， 我 们 讨论 一 
个 新 的 ADT 的 创建 过 程 ， 结 合 第 1 便 讨 论 的 连通 性 问题 中 实现 的 合并 一 查找 (union-find) 抽象 
这 一 上 下 文 来 讨论 。 此 后 ， 我 们 回 到 抽象 对 象 集合 中 去 ， 讨 论 先 进 先 出 (First In First Out， 
FIFO) 队列 和 广义 队列 〈 它 和 栈 在 抽象 层面 上 惟一 区 别 在 于 使 用 了 一 个 不 同 的 删除 规则 ) ， 在 
广义 队列 中 不 允许 复制 项 。 

正如 在 第 3 章 中 所 看 到 的 那样 ， 数 组 和 链表 提供 了 基本 机 制 ， 允 许 我 们 插入 和 删除 特殊 的 
项 。 实 际 上 ， 链 表 和 数组 是 我 们 讨论 的 某 些 广义 队列 实现 的 根本 数据 结构 。 大 家 都 知道 ， 揪 
入 和 删除 的 开销 依赖 于 我 们 使 用 的 特定 结构 以 及 被 插入 或 删除 的 特定 项 。 对 于 给 定 的 一 个 
ADT， 我 们 面临 的 挑战 是 如 何 选择 数据 结构 ， 使 我 们 可 以 高 效 执行 所 需要 的 操作 。 在 这 一 章 
里 ， 我 们 详细 考察 了 几 个 ADT 的 例子 ， 其 中 链表 和 数组 提供 了 适当 的 解决 方案 。 支 持 更 强 操 
作 的 ADT 则 要 求 更 加 复杂 的 实现 ， 这 是 本 书 讨论 的 许多 算法 主要 推动 力 。 

由 抽象 对 象 集合 组 成 的 数据 类 型 (广义 队列 ) 是 计算 机 科学 中 研究 的 主要 对 象 。 因 为 它 
们 直接 地 支持 基本 的 计算 范 型 。 对 于 大 量 的 计算 而 言 ， 我 们 发 现 自己 有 太 多 的 对 象 需要 处 理 ， 
但 是 一 次 只 能 处 理 一 个 对 象 。 因 此 ， 我 们 需要 在 处 理 其 中 一 个 对 象 时 保存 好 其 他 的 对 象 。 这 
个 过 程 可 能 会 引发 检查 对 象 是 否 已 经 保存 ， 或 者 向 集合 中 添加 更 多 的 信息 ， 但 是 存储 对 象 和 
根据 某 些 准则 检索 对 象 是 计算 的 基础 。 我 们 将 会 看 到 ， 许 多 经 典 的 数据 结构 和 算法 都 符合 这 
一 模型 。 
练习 
>4.1 ”给 出 用 于 浮 点 数 的 Item 和 eq 的 定义 。 如 果 两 个 浮 点 数 差 的 绝对 值 除 较 大 的 数 (绝对 值 ) 
小 于 10<， 则 认为 它们 相等 。 
>4.2 给 出 用 于 平面 点 集 ( 见 3.1 节 ) 的 Item 和 eq 的 定义 。 
4.3 向 书 中 描述 的 整数 和 字符 串 的 通用 对 象 类 型 定义 中 添加 一 个 宏 ITEMshow。 这 个 宏 能 在 标 
准 输出 上 打印 项 的 值 。 . 
>4.4 给 出 Item 和 ITEMshow ( 见 练习 4.3) 的 定义 ， 使 其 可 用 于 玩 牌 游戏 的 程序 中 。 
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4.5 ”使 用 文件 Item.h 中 的 通用 对 象 类 型 重 写 程序 3.1。 你 的 对 象 类 型 应 该 包括 ITEMshow ( 见 
练习 4.3) 和 ITEMrand， 使 程序 可 用 于 + 和 /所 定义 的 任意 类 型 的 数 。 


4.2 下 推 栈 ADT 
在 支持 对 象 集合 中 的 元 素 插入 和 删除 操作 的 所 有 数据 类 型 中 ， 最 重要 的 叫做 下 推 覆 


(pushdown stack ) 。 

栈 的 操作 有 点 像 一 个 工作 繁忙 的 教授 的 收 件 箱 : 信件 在 栈 里 堆 得 老 高 ， 当 教授 有 空 处 理 
时 ,会 从 顶部 取信 。 一 个 学 生 的 论文 可 能 会 在 栈 底 呆 上 一 两 天 ， 但 一 个 尽责 任 的 教授 会 在 每 
个 周末 清空 栈 。 我 们 将 会 看 到 ， 计 算 机 程序 通常 就 是 按照 这 种 方式 组 织 的 。 它 们 频繁 地 延迟 
某 些 任 务 ， 因 为 正在 执行 其 他 任务 ， 此 外 ， 它 们 会 频繁 地 需要 首先 返回 最 近 被 延迟 的 任务 。 
因此 ， 下 推 栈 成 了 许多 算法 的 最 基本 的 数据 结构 。 

定义 4.2 “下 推 栈 是 一 种 ADT， 它 由 两 种 基本 操作 组 成， 插入 (推进 ) 一 个 新 的 项 ， 和 移 
除 (弹出 ) 一 个 最 近 插入 的 项 。 

也 就 是 说 ， 当 我 们 谈 到 下 推 栈 ADT 的 时 候 ， 我 们 指 的 是 这 样 一 中 描述 : 它 有 推进 (push) 
和 弹出 (pop) 操作 ， 它 非常 好 地 指定 了 一 个 客户 程序 能 够 使 用 这 些 操 作 。 对 这 些 操作 的 某 些 
实现 来 说 ， 它 强迫 实行 这 样 的 规则 来 表征 一 
个 下 推 栈 : 项 按照 后 进 先 出 〈last-in ，first- 
out，LIFO) 的 规则 来 移 除 。 我 们 最 常用 的 
一 种 最 简单 情况 ， 就 是 客户 和 实现 都 指向 某 
个 栈 (也 就 是 说 ， 数 据 类 型 中 “ 值 的 集合 ” 
就 是 那个 栈 ) ， 在 4.8 节 中 ， 我 们 将 会 看 到 - 
如 何 建立 支持 多 栈 的 一 个 ADT。 

图 4-1 通 过 一 系列 的 push 和 pop 操 作 显示 
了 一 个 栈 的 工作 过 程 。 每 一 次 Push 操作 使 栈 
的 大 小 增加 1， 每 一 次 pop 操 作 使 栈 的 大 小 减 
少 1。 在 图 中 ， 栈 中 的 项 按照 它们 推进 栈 的 
顺序 列表 ， 因 此 很 清楚 地 看 到 表 中 最 右 端的 
项 就 是 栈 中 最 上 面 的 项 一 一 如 果 下 一 个 操作 
是 pop， 就 会 返回 这 个 项 。 在 实现 中 ， 我 们 
可 以 按照 自己 的 意愿 自由 地 组 织 项 ， 只 要 我 
们 允许 客户 保持 这 样 的 感觉 就 行 了 : 那 就 是 
项 是 按 这 种 方式 组 织 的 。 

为 了 编写 使 用 下 推 栈 抽象 的 程序 ， 我 们 
首先 需要 定义 接口 。 在 C 语 言 中 ,一 种 方法 
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图 4-1 下 推 栈 (LIFO 队 列 ) 示例 


是 像 程 序 4.1 那 样 ， 声 明 客户 程序 中 可 能 使 《 注 : 


用 的 4 种 操作 。 我 们 把 这 些 声明 保存 在 文件 
STACK.h 中 ， 在 客户 程序 和 实现 中 用 包含 文 
件 引 用 它 。 


这 个 列表 显示 了 左边 列 (从 上 到 下 ) 的 一 系列 操作 的 
结果 ， 字 母 表明 推进 栈 ， 星 号 表明 弹出 槛 。 每 一 行 显 
示 了 操作 、 弹 出 操作 的 结果 字符 ， 以 及 操作 之 后 栈 中 
的 内 容 ， 按 照 最 先 插 入 的 在 左边 ， 最 后 插入 的 在 右边 
的 顺序 。 
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i i ， 程序 4.1 下 推 栈 ADT 接 口 “ 0 J 
这 个 接口 定义 了 下 推 术 定 义 中 使 用 的 基本 操作 。 假设 在 文件 STACK.h 中 有 四 个 声明 ， 提供 
其 代码 的 实现 和 使 用 这 些 函 数 的 客户 程序 可 以 将 该 文件 作为 包含 文件 来 引用 ,而且 客户 程序 
和 实现 中 都 定义 了 Item， 可 能 都 包含 Item.h 文 件 〈 该 文件 可 能 使 用 typedef ,或 者 可 能 定义 
一 个 更 一 般 的 接口 ) 。STACKinit 的 参数 指定 了 栈 中 期 望 的 最 大 元 素数 目 。 
void STACKinit (int); 

int STACKempty (void); 
void STACKpush (Item); 
Item STACKpop(); 


此 外 ， 我 们 期 望 在 客户 程序 和 实现 之 间 没 有 其 他 关系 。 我 们 在 第 1 章 已 经 看 到 了 识别 一 个 
计算 所 基于 的 抽象 操作 的 价值 。 我 们 现在 考虑 使 用 这 些 抽象 操作 编写 程序 的 机 制 。 为 了 强调 
抽象 性 ， 我 们 隐 含 了 客户 的 数据 结构 和 实现 。 在 4.3 节 中 ， 我 们 讨论 使 用 栈 抽象 的 客户 程序 的 
例子 ， 在 4.4 节 讨论 实现 问题 。 

在 一 个 ADT 中 ， 接 口 的 作用 是 充当 客户 和 实现 之 间 的 契约 。 函 数 声明 保证 了 客户 程序 中 
的 调用 和 实现 匹配 中 的 函数 定义 ， 但 是 接口 并 不 包含 如 何 实现 函数 的 信息 ， 甚 至 也 没有 关于 
它们 如 何 和 运行 的 信息 。 那 么 我 们 如 何 向 客户 程序 解释 栈 是 什么 呢 ? 对 于 像 栈 这 样 的 简单 结构 ， 
一 种 可 能 性 是 去 显示 代码 ， 但 这 一 解决 方案 通常 显然 不 高 效 。 程 序 员 更 经 常 做 的 是 ， 借 助 于 
语言 文字 的 描述 ， 把 解释 放 在 和 代码 一 块 的 文档 里 面 。 

这 种 状况 的 严格 处 理 ， 需 要 用 一 些 形式 数学 的 符号 来 完全 描述 函数 应 该 具有 的 行为 。 有 
时 把 这 样 的 描述 称 为 规范 。 开 发 规范 通常 是 一 件 挑战 性 的 任务 。 它 必须 用 数学 上 的 元 语言 描 
述 实现 这 些 函 数 的 任何 程序 ， 尽 管 我 们 习惯 了 在 用 编程 语言 编写 的 代码 中 指定 函数 的 行为 。 
实际 上 ， 我 们 用 语言 文字 描述 函数 的 行为 。 为 了 不 在 认识 论 问题 上 纠缠 ， 我 们 继续 讨论 。 在 
这 本 书 中 ， 我 们 给 出 了 详细 的 例子 ， 语 言 文字 描述 以 及 我 们 所 讨论 的 大 多 数 ADT 的 多 种 实现 

为 了 强调 下 推 栈 ADT 的 规范 有 足够 信息 编写 有 意义 的 客户 程序 ， 讨 论 实现 之 前 ， 在 4.3 节 
先 讨论 两 个 使 用 下 推 栈 的 客户 程序 。 
练习 
>4.6 在 下 面 的 序列 中 ， 字 母 表示 push 操 作 ， 星 号 表示 pop 操 作 

EAS*Y*QUE***ST***IO*N'*: 

给 出 pop 操 作 返 回 的 值 的 序列 。 

4.7 ”使 用 练习 4.6 中 的 约定 ， 在 序列 EASY 中 的 适当 地 方 插入 星 号 ， 使 得 由 pop 操 作 所 返回 的 
值 的 序列 为 (i)EASY; (iDYSAE; (iiD)ASYE ; (iv)AYES ; 或 者 证 明 上 述 每 种 情况 ， 不 存在 这 样 
的 序列 。 | 

…4.8 ”给 定 两 个 序列 ， 给 出 算法 用 来 判定 是 否 可 以 在 序列 中 添加 星 号 ， 使 得 由 第 一 个 序列 生成 
第 二 个 序列 。 栈 操作 序列 的 含义 由 练习 4.7 来 解释 。 


4.3 栈 ADT 客 户 示例 


一 章 将 会 看 到 非常 多 的 栈 的 应 用 。 作 为 一 个 入 门 性 的 例子 ， 我 们 现在 讨论 栈 在 计算 算 
术 表达 式 中 的 应 用 。 例 如 ， 假 定 我 们 需要 计算 出 一 个 由 整数 的 乘 加 运算 组 成 的 简单 算术 表达 
式 的 值 ， 比 如 说 

5*(((9+8)*(4*6))+7) 
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这 个 计算 包含 了 存储 中 间 结 果 的 过 程 。 例 如 ， 如 果 我 们 首先 计算 9 + 8， 那 么 在 计算 4*6 时 就 必 
须 存储 结果 17。 下 推 栈 就 是 在 这 样 的 计算 中 存储 中 间 结 果 的 一 种 理想 机 制 。 

我 们 从 考虑 一 个 简单 问题 开始 ， 我 们 需要 求 值 的 表达 式 的 形式 是 : 每 个 操作 符 跟 在 它 的 
两 个 参数 之 后 ， 而 不 是 两 个 参数 之 间 。 我 们 将 会 看 到 ， 任 何 算术 表达 式 都 可 以 排列 成 这 种 形 
式 ， 称 为 后 组 表达 式 ， 与 之 对 应 的 是 中 缓 表达 式 ， 它 是 书写 算术 表达 式 的 习惯 使 用 方式 。 上 
一 段 中 的 表达 式 的 后 缀 表示 为 : 

598+46 本 本 了 十 水 

与 后 组 表达 式 相反 的 是 前 缓 表达 式 ， 又 称 波兰 表示 法 (因为 它 是 由 波兰 逻辑 学 家 Lukasie- 
wicz 发 明 的 )。 

在 中 绥 表 达 式 中 ， 我 们 需要 加 上 括号 来 区 别 如 下 表达 式 

5*(((9+8)*(4*6))+7) 

与 

表达 式 

((5*9)+8)*((4*6)+7) 

但 是 括号 在 后 缀 (或 者 前 级) 表达 式 中 是 不 需要 的 。 想 知道 为 什么 ， 我 们 来 看 看 下 面 一 个 
将 后 级 表达 式 变 换 成 中 缀 表达 式 的 过 程 : 我 们 把 两 个 操作 数 后 面 跟着 一 个 操作 符 的 事件 替 
换 成 对 应 的 中 缀 表达 式 ， 加 上 括号 来 指出 所 得 结果 可 以 被 看 成 新 的 操作 数 。 也 就 是 说 ， 当 
表达 式 中 出 现 ab* 和 ab+ 时 ， 将 它们 分 别 替换 成 (a*b) 和 (a+b)。 然 后 我 们 对 结果 表达 式 做 同 
样 的 变换 ， 一 直 继 续 下 去 直到 所 有 的 操作 符 都 已 经 被 处 理 过 。 在 我 们 这 一 个 例子 中 ， 变 换 
的 顺序 如 下 : 

598+46 本 村 了 十 市 

5(9+8)(4*6)*7+* 

5((9+8)*(4*6))7+* 

5(((9+8)* (4*6))+7)* 

(5* (CC((9+8)*(4*6))+7)) , 

用 这 种 方法 ， 我 们 能 够 决定 后 缀 表达 式 中 的 操作 数 到 底 是 跟 哪 个 操作 符 关 联 ， 因 此 不 需 
要 任何 括号 。 

借助 于 栈 ， 我 们 实际 上 可 以 对 任意 的 后 缀 表 
达 式 进行 操作 和 求 值 ， 就 像 图 4-2 中 说 明 的 一 样 。 
我 们 从 左 到 右 解 释 每 个 操作 数 ， 把 每 个 操作 数 解 
释 为 命令 “把 操作 数 推 入 栈 中 ”， 把 每 个 操作 符 解 
释 为 命令 “从 栈 中 弹出 两 个 操作 数 ”"， 执 行 所 示 操 
作 ， 把 结果 推 人 栈 。 程 序 4.2 是 这 一 过 程 的 C 实 现 。 

后 缀 表示 法 和 与 之 关联 的 下 推 栈 给 我 们 提供 
了 组 织 一 系列 计算 过 程 的 自然 途径 。 一 些 计算 器 
和 计算 语言 明确 地 使 用 后 缀 和 栈 的 操作 作为 计算 
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的 方法 一 一 每 一 操作 从 栈 中 弹出 它 的 参数 ， 并 向 图 4-2 后 级 表达 式 求 什 
栈 中 返回 它 的 结果 。 注 : 这 个 序列 显示 了 使 用 栈 求 后 组 表达 式 5 98+ 46 
PostScript 语 言 是 这 种 语言 的 一 个 例子 。 这 本 ** 米 了 了 十 六 的 值 。 从 左 至 右 扫 描 表 达 式 ， 如 果 允 到 


TP 关 呈 大 人 : 一 个 数字 ， 则 把 它 推 入 栈 中 ; 如 果 遇 到 一 个 操作 
书 就 是 用 这 种 语言 写 的 。 它 是 一 种 完整 的 编程 语 符 ， 则 弹出 税 中 两 个 数字 ， 并 把 应 用 操作 符 的 结 


言 ， 程 序 用 后 缀 写成 ， 并 借助 一 个 内 置 栈 解 释 执 果 推 入 栈 顶 。 
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行 ， 就 像 程序 4.2 一 样 。 尽 管 在 这 里 不 能 覆盖 语言 的 所 有 方面 ( 见 第 二 部 分 参考 文献 ) ， 但 是 
它 非常 简单 使 我 们 能 够 研究 实际 的 程序 ， 欣 赏 后 缀 表示 和 下 推 栈 抽象 的 用 途 。 例 如 ， 串 


598add46 ml ma 7 add mul 


是 一 个 PostScript 程 序 ! PostScript 中 的 程序 由 操作 符 (如 add 和 mu1) 和 操作 数 (如 整数 ) 组 成 。 
如 在 程序 4.2 中 所 作 的 那样 ， 我 们 从 左 到 右 读 取 程序 并 加 以 解释 如 果 遇 见 一 个 操作 数 ， 则 把 它 
推 入 栈 中 ， 如 果 遇 见 一 个 操作 符 ， 则 从 栈 中 弹出 它 的 操作 数 (如 果 有 的 话 )， 然 后 把 结果 (如果 
有 的 话 ) 推 人 校 中 。 因此 ， 程序 的 执行 了 在 图 4- ?中 详细 描述 。 程序 在 术 中 的 最 终 值 为 2075。 





这 是 一 个 下 推 栈 的 客户 程序 ， 它 读 取 任何 由 整数 乘法 和 加 法 组 成 的 表达 起。 然后 计算 表 
达 式 的 值 ， 并 打印 计算 结果 。 

当 遇 见 操作 数 时 ， 我 们 把 它们 推 人 栈 中 ， 当 遇见 操作 符 时 ， 从 栈 中 弹出 两 个 最 顶端 的 整 
数 ， 然 后 把 它们 的 结算 结果 推 人 栈 中 。 在 这 个 C 代 码 的 表达 式 中 ， 两 个 STACKpop( ) 弹 出 操作 
的 顺序 没有 指定 ， 因 而 对 于 那些 不 可 交换 参数 计算 顺序 的 操作 符 ， 如 减法 和 除法 ， 它 们 的 代 
码 会 稍微 复杂 一 些 。 

程序 假设 每 个 整数 之 后 至 少 有 一 个 空格 ， 但 是 程序 根本 不 检查 合法 性 。 最 后 的 if 语句 和 
whi1e 循 环 所 执行 的 计算 类 似 于 C 中 的 atoi 函数 ， 把 整数 ASCII 值 转换 成 整数 来 计算 。 当 遇见 
一 个 新 的 数字 时 ， 我 们 把 累计 结果 乘 10 再 加 上 这 个 数字 。 

栈 中 包含 整数 一 一 也 就 是 说 ， 我 们 假设 在 Item.h 中 Item 被 定义 为 int 类 型 ，Item.h 也 包 
含 在 栈 的 实现 中 (参阅 程序 4.4) 。 

#include <stdio.h> 

#include <string.h> 

#include "Item.h" 

#include "STACK.h" 

main(int argc, char *argv[]) 

{ char *a = argv[1]; int i, N = strlen(a); 
STACKinit (N); 
for (i = 0; i < N; i++) 
{ 
if (a[i] == ’+’) 
STACKpush (STACKpop() +STACKpop () ); 
if (a[i] == ’;*’) 
STACKpush (STACKpop ()*STACKpop ()); 
if ((a[i] >= :0:) && (a[i] <= :9’)) 
STACKpush (0); 
while ((a[i] >= ’0’) && (a[li] <= ’9’)) 
STACKpush (10*STACKpop() + (a[i++]-’0’)); 


} 
printf("%d \n", STACKpop () ) ; 
} 


PostScript 中 有 许多 基本 函数 ， 都 可 用 作 抽 象 图 形 显示 设备 的 指令 ， 我们 也 可 以 定义 自己 
的 函数 。 这 些 函 数 在 栈 中 带 着 参数 被 调用 ， 和 其 他 的 函数 一 样 。 例 如 ，PostScript 代 码 

0 0 moveto t44 hill 0 72 moveto 72 hill stroke 

表示 这 样 的 操作 序列 :“ 调 用 参数 为 0 和 0 的 moveto， 然 后 调用 参数 为 144 的 hi11”， 以 此 类 推 。 
一 些 操作 符 直 接 指向 栈 自身 。 例 如 ， 操 作 符 dup 也 像 这 样 复制 栈 顶 的 元 素 。 例 如 ，PostScript 代 码 
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144 dup 0 rlineto 60 rotate dup 0 rlineto 


表示 这 样 的 操作 序列 :“ 调 用 参数 为 144 和 0 的 函数 dup ， 接 着 调用 参数 为 60 的 函数 rotate， 
然后 调用 参数 为 144 和 0 的 函数 rlineto”， 以 此 类 推 。 图 4-3 中 的 PostScript 的 程序 定义 并 使 用 
函数 hi11。PostScript 中 的 函数 就 像 宏 ， 序 列 /hi11 {A} def 使 得 hi11 等 价 于 花 括号 中 的 操作 
序列 。 图 4-3 是 一 个 PostScript 程 序 的 例子 ， 它 定义 一 个 函数 并 画 出 一 个 简单 图 表 。 

通过 一 些 示例 ， 我 们 对 PostScript 的 兴趣 是 ， 这 一 广泛 应 用 的 编程 语言 是 基于 下 推 栈 的 抽 
象 。 实 际 上 ， 许 多 计算 机 在 硬件 层 实 现 了 基本 的 栈 操作 ， 这 是 因为 它们 很 自然 地 实现 了 一 种 
函数 调用 机 制 : 在 函数 入 口 处 ， 通 过 推 人 栈 的 操作 把 当前 环境 信息 保存 在 栈 中 ， 退 出 函数 调 
用 时 ， 通 过 弹 栈 操作 恢复 调用 前 的 环境 信息 。 正 如 我 们 在 第 5 章 中 所 看 到 的 那样 ， 下 推 栈 和 以 
函数 调用 组 织 成 函数 的 程序 之 间 的 这 种 关系 是 计算 的 一 个 基本 范 型 。 

回 到 原来 讨论 的 那个 问题 ， 我 们 也 可 以 使 用 下 推 栈 将 一 个 加 上 完整 括号 的 中 缀 表达 式 转 
换 为 后 缀 表达 式 ， 如 图 4-4 所 示 。 在 这 个 计算 中 ， 我 们 把 操作 符 推 入 栈 中 ， 并 简单 地 把 操作 数 
传递 到 输出 设备 。 然 后 ， 每 一 对 括号 表示 最 近 操 作 符 的 两 个 参数 已 被 输出 ， 因 此 操作 符 自身 
也 被 弹出 和 输出 。 


_ 人 
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/hill { 
Gup 0 rlineto 
60 rotate 
dup 0 rlineto 


-120 rotate 
dup 0 rlineto 
60 rotate 
dup 0 rlineto 
pop 
} def 

0 0 moveto 

144 hill 

0 72 moveto 

72 hill 

stroke 
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图 4-3 PostScript 程 序 示例 图 4-4 中 组 表达 式 到 后 缀 表达 式 的 转换 


注 : 上 图 中 的 图 表 是 用 其 下 的 PostScript 程 序 画 出 的 。 注 : 这 个 序列 显示 了 栈 在 对 中 组 表达 式 (5*(((9+8)( 

程序 是 一 个 后 组 表达 式 ， 它 使 用 了 内 置 函 数 (4*6))+7)) 向 其 后 级 表达 式 598+46**7+* 
moveto、rlineto、rotate、stroke 和 dup; 以 及 用 的 转换 过 程 中 的 作用 。 我 们 从 左 至 右 处 理 表 达 式 : 
户 定义 的 函数 hi11 (定义 参阅 正文 ) 。 画 图 命令 是 当 遇 到 数字 时 ， 直 接 输出 ; 当 遇 到 左 括号 时 ， 息 
前 图 设备 的 指 今 : M0Vet0 指 示 设 备 移 动 到 页 面 上 略 它 ; 当 遇 到 操作 符 时 ， 将 它 推 入 找 中 ;， 当 珊 到 
的 指定 位 置 〔( 象 素 点 为 其 坐标 ， 一 个 点 表示 1/72 英 右 持 号 时 ， 输 出 栈 项 的 操作 符 。 
寸 ) ; rlineto 指 示 设 备 从 当前 位 置 移 到 指定 的 坐 
标 位 置 ， 并 在 当前 路 径 上 划一 条 线 ; rotate 指 示 
设备 向 左 转动 指定 的 角度 ; Stroke 指 示 设 备 画 出 
的 路 径 的 轨迹 。 
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程序 4.3 是 这 个 过 程 的 一 种 实现 。 注 意 参 数 在 后 绥 表 达 式 中 出 现 的 次 序 与 在 中 缀 表达 式 中 出 
现 的 一 一 人 然而 ， 如果 有 的 操作 符 需 要 不 同 数量 的 操作 数 ， 中 正本 号 是 需要 的 ( 见 练 习 4 +11), 





这 是 程序 是 下 扒 术 的 另 一 一 个 客户 示例 ， 在 这 一 示例 中 ， 栈 中 元 素 是 字符 一 我 们 假设 
Item 定 义 为 字符 类 型 (也 就 是 说 ， 我 们 使 用 的 1tem.h 文 件 不 同 于 程序 4.2 中 使 用 的 文件 )。 为 
了 将 (A+B) 转换 到 它 的 后 缀 形式 AB+， 我 们 忽略 左 括号 ， 转 换 A 到 后 缀 形式 ,保存 + 符号 在 
栈 中 ， 转 换 B 到 后 缀 形式 ， 然 后 ， 由 于 过 到 右 括号 ， 所 以 弹出 栈 中 元 素 ， 并 输出 +。 

#include <stdio.h> 

#include <string.h> 

#include "Item.h" 

#include "STACK.h" 

main(int argc, char *argv[]) 

{ char *a = argv[1]; int i, N = strlen(a); 
STACKinit (N); 
for (i = 0; i < N; i++) 
{ 
if (a[i] == :)?) 
printfC"%c ", STACKpop()); 
if ((a[li] == ?+’) |1 (a[i] == ’*’)) 
STACKpush (a[i]); 
if ((a[il] >= ’0’) && (a[i] <= ’9’)) 
printf("%c ", a[i]); 
} 
printf ("\n"); 
} 


除了 提供 两 个 使 用 下 推 栈 抽象 的 不 同 例子 ， 本 节 开 发 的 计算 中 缀 表达 式 值 的 完整 算法 自 
身 也 是 关于 抽象 的 一 个 练习 。 第 一 ， 将 输入 转换 成 一 个 中 间 表 示 形 式 (后 缀 表示 )。 第 二 ， 模 
拟 了 一 个 基于 栈 的 抽象 机 器 的 操作 ， 来 解释 和 对 这 个 后 缀 表达 式 求 值 。 同 样 的 做 法 在 当代 许 
多 编程 语言 的 解释 器 中 都 有 应 用 ， 因 为 这 一 做 法 高 效 而 且 易 于 移植 。 为 一 台 特 定 的 计算 机 编 
译 一 个 C 程 序 的 问题 就 分 解 为 以 中 间 表 示 为 中 心 的 任务 ， 因 此 解释 程序 的 问题 就 从 执行 那个 程 
序 的 问题 中 分 离 出 来 ， 就 像 我 们 在 这 一 节 中 所 做 的 一 样 。 在 5.7 节 将 看 到 一 个 相关 但 不 同 的 中 
间 表 示 。 

这 个 应 用 同时 也 说 明了 ADT 的 确 有 其 局 限 性 。 例 如 ， 我 们 常规 所 做 的 讨论 中 ， 并 不 为 把 
程序 4.2 和 程序 4.3 组 合成 一 个 程序 提供 一 种 简洁 的 方式 ， 在 它们 之 间 使 用 相同 的 下 推 栈 ADT。 
我 们 不 仅 需要 两 个 不 同 的 栈 ， 而 且 其 中 一 个 栈 存放 单个 字符 (操作 符 )， 另 一 个 栈 存 放 数 字 。 
为 了 更 好 地 理解 这 个 问题 ， 对 数字 做 一 假定 ， 比 如 是 浮 点 数 不 是 整数 。 使 用 一 种 通用 机 制 使 
得 这 两 个 栈 共 享 同一 实现 〈 它 是 4.8 节 所 讨论 的 一 种 方法 的 扩展 ) 可 能 比 使 用 两 个 不 同 栈 〈 见 
练习 4.16) 问题 还 要 多 。 实 际 上 ， 我 们 会 看 到 这 种 解决 方法 会 是 一 种 可 选 方法 ， 因 为 不 同 实 
现 性 能 有 所 不 同 。 因 而 ， 我 们 不 希望 预先 决定 一 个 ADT 会 有 两 种 用 途 。 实 际 上 ， 我 们 的 重点 
在 于 实现 及 其 性 能 ， 下 面 转 到 下 推 栈 的 主题 。 
练习 
>4.9 将 以 下 表达 式 转换 成 后 缀 表达 式 : 


(5B*((9*8)+(7*(4+6)))). 
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4.10 按照 与 图 4-2 同 样 的 方法 ， 给 出 栈 中 的 内 容 ， 如 同 程序 4.2 求 值得 到 的 以 下 表达 式 ， 
59*8746+*213* 十 水 十 水 . _ 

>4.11 扩展 程序 4.2 和 程序 4.3， 使 它们 能 处 理 -- (减法) 和/ (除法 ) 操作 。 

4.12 扩展 程序 4.11 中 的 解答 ， 使 其 能 处 理 一 元 操作 一 ( 负 ) 和 $ (平方 根 )。 然 后 ， 修 改 程序 
4.2 中 的 抽象 栈 机 制 ， 使 之 可 以 使 用 浮 点 数 。 例 如 ， 给 定 以 下 表达 式 ，: 

(-(-1) + $C-1) * (-1)-(4 * (-1))))/2 

你 的 程序 应 该 打印 出 结果 值 1.618034。 

4.13 编写 一 个 PostScript 程 序 画 出 以 下 图 案 。 


-| 


“4.14 用 归纳 法 证 明 程序 4.2 能 够 对 任何 后 级 表达 式 正确 求 值 。 
24.15 使 用 一 个 下 推 栈 ， 编 写 一 个 程序 ， 把 一 个 后 缀 表达 式 转 换 成 中 组 表达 式 。 
“4.16 使 用 两 种 不 同 的 栈 ADT: 整数 栈 和 操作 符 栈 ， 把 程序 4.2 与 程序 4.3 组 合成 一 个 模块 。 
"4.17 ”实现 一 个 编程 语言 的 编译 器 和 解释 器 ， 用 该 编程 语言 写 的 程序 包括 一 个 简单 算术 表达 
式 ， 之 前 有 一 系列 算术 赋值 表达 式 语 旬 ， 这 些 表达 式 由 整数 和 以 单个 小 写字 母 命名 的 变量 组 
成 。 例 如 ， 
(x = 1) 


(y = (x + 1)) 
(((x + y) * 3) + (4 * x)) 


你 的 程序 应 该 打印 出 结果 值 13。 
4.4 栈 ADT 的 实现 


本 节 我 们 讨论 栈 ADT 的 两 种 实现 ， 一 种 使 用 数组 实现 ， 另 一 种 使 用 链表 实现 。 这 两 种 实 
现 都 是 我 们 在 第 3 章 所 学 的 基本 工具 的 直接 应 用 。 我 们 期 望 它们 只 在 性 能 特性 上 有 所 不 同 。 

如 果 我 们 使 用 数组 表示 栈 ， 程 序 4.1 中 声明 的 每 个 函数 对 于 实现 来 说 微不足道 ， 正 如 4.4 中 
显示 的 一 样 。 我 们 按照 图 4-1 的 方式 把 项 放 进 数组 中 ， 记 录 栈 顶 位 置 的 下 标 。 进 行进 栈 操作 时 ， 
只 要 把 项 存放 到 栈 顶 下 标 所 指示 的 数组 位 置 即 可 ， 然 后 下 标 增 1， 进 行 弹 栈 (pop) 操作 时 ， 
使 下 标 减 1， 并 返回 它 所 指示 的 项 。 初 始 (initialize) 操作 包括 分 配 指定 大 小 的 数组 ， 测 试 是 
否 为 空 (empty) 操作 包括 检查 是 否 下 标 为 0。 和 程序 4.2 或 程序 4.3 这 样 的 客户 程序 一 起 编译 ， 
这 一 实现 提供 了 一 个 高 效 且 实际 的 下 推 栈 。 

我 们 知道 使 用 数组 的 一 个 潜在 缺点 是 : 就 像 通常 基于 数组 的 数据 结构 一 样 ， 在 使 用 数组 
之 前 ， 需 要 知道 数组 的 最 大 长 度 ， 这 样 才能 给 它 分配 内 存 。 在 这 一 实现 中 ， 我 们 将 这 个 最 大 
长 度 作为 参数 传递 给 初 姑 化 函数 。 这 一 限制 是 我 们 选择 使 用 数组 实现 的 人 为 因素 ， 它 不 是 栈 
ADT 固 有 的 部 分 。 我 们 可 能 不 是 那么 容易 就 能 估计 出 程序 放 在 栈 中 的 最 大 元 素数 。 如 果 我 们 
选择 一 个 任意 大 的 数 ， 这 一 实现 对 空间 的 使 用 将 很 低 效 ， 这 在 空间 资源 宝贵 的 应 用 中 不 会 想 
要 。 如 果 我 们 选择 的 值 太 小 ， 我 们 的 程序 将 根本 不 能 运行 。 通 过 使 用 ADT， 我 们 才 有 可 能 考 
虚 其 他 的 选择 ， 在 其 他 实现 中 ， 不 用 改变 任何 客户 程序 。 

例如 ， 人 允许 栈 优 雅 地 增长 和 收缩 。 我 们 还 可 以 考虑 使 用 一 个 链表 ， 像 在 程序 4.5 中 实现 的 
那样 。 在 这 一 程序 中 ， 我 们 把 元 素 按 照 逆序 排列 ， 不 同 于 数组 实现 ， 它 从 最 近 刚 插入 的 元 素 
到 最 初 插入 的 元 素 ， 使 得 栈 的 基本 操作 易于 实现 ， 如 同 图 4-5 中 描述 的 那样 。 对 于 pop 操 作 ， 
我 们 删除 链表 的 表 头 元 素 ， 并 返回 它 的 项 ， 对 于 push 操 作 ， 我 们 创建 一 个 新 的 节点 ， 然 后 把 
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它 添加 到 链表 头 。 因 为 所 有 的 链表 操作 都 是 在 表 头 进行 ， 我 们 无 需 使 用 头 节点 。 这 种 实现 不 
需要 使 用 STACKinit 中 的 参数 。 


mL 


om Cm 


head 


图 4-5 链表 下 推 栈 


注 : 栈 用 指针 头 表 示 ， 它 指向 第 一 个 (通常 是 最 新 插入 的 ) 元 素 ， 为 了 弹出 栈 顶 元 素 ， 我 们 通过 设置 head 的 链 
接 来 删除 链表 的 头 元 素 。 为 了 向 栈 中 压 入 元 素 ， 我 们 把 它 链接 到 表 头 ， 并 把 它 的 link 域 设置 为 head， 使 
head 指 向 它 。 


程序 4.4 和 程序 4.5 是 同一 个 ADT 的 两 种 不 同 实现 。 我 们 可 以 用 一 个 代替 另 一 个 ， 而 不 需 对 
客户 程序 〈 例 如 那些 我 们 在 4.3 节 讨论 过 的 程序 ) 做 任何 改变 。 它 们 的 区 别 仅仅 在 于 性 能 特性 
的 差异 ， 也 就 是 它们 使 用 的 时 间 和 空间 上 的 差异 。 例 如 ， 表 实现 使 用 较 多 时 间 执 行进 栈 操 作 
和 弹 栈 操作 ， 为 每 个 push 操 作 分 配 内 存 空间 和 每 个 pop 操 作 释 放 内 存 空 间 。 如 果 有 些 应 用 中 要 
大 量 地 执行 这 些 操 作 ， 我 们 就 会 选用 数组 实现 。 另 一 方面 ， 数 组 实现 所 使 用 的 空间 ， 是 用 来 
保存 整个 计算 中 的 最 大 数量 的 项 ， 而 链表 实现 所 需 空间 与 项 的 个 数 成 正比 ， 但 常常 为 每 个 项 
的 一 个 链接 使 用 额外 空间 。 如 果 我 们 需要 一 个 巨大 但 常常 接近 满 的 栈 ， 我 们 可 以 选用 数组 实 
现 ， 如 果 我 们 的 栈 的 大 小 变化 很 大 ， 而 且 其 他 数据 结构 可 以 在 栈 中 只 有 少量 项 时 使 用 未 用 的 
空间 时 ， 我 们 可 以 选择 链表 实现 。 
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当 栈 中 有 N 个 项 时 ， 这 一 实现 把 这 些 项 保存 在 s[0]，..，s[N-1] 中 ， 按 照 最 近 括 入 的 顺 齿 
排列 。 栈 顶 (下 一 个 进 栈 的 元 素 将 要 占据 的 位 置 ) 元 素 就 是 s[N]， 客户 程序 将 期 望 的 项 的 最 
大 数目 作为 参数 传递 给 STACKinit ， 它 分 配 一 个 以 此 为 大 小 的 数组 。 但 是 这 段 代 码 并 未 实现 对 
诸如 向 一 个 满 栈 压 人 元 素 (或 者 从 一 个 空 栈 弹 出 元 素 ) 这 类 操作 的 错误 检测 。 

#incliude <stdlib.h> 

#include "Item.h" 

#include "STACK.h" 

static Item *s; 

static int N; 

void STACKinit (int maxN) 

{s= malloc(maxN*sizeof (Item)); N = 0; } 
int STACKempty() 
{ return N == 0; } 

void STACKpush (Item item) 

” { s[N++] = item; } 

Item STACKpop() 

{ return s[--N]; } 


这 些 对 空间 使 用 率 上 的 讨论 ， 对 于 许多 ADT 的 实现 都 是 一 样 的 ， 正 如 我 们 在 本 书 中 将 要 
看 到 的 那样 。 我 们 通常 需要 在 快速 访问 项 但 必须 预先 预测 所 需 的 最 大 项 数 和 常常 使 用 与 所 用 
项 数 成 正比 的 空间 的 能 力 之 间作 出 选择 ， 而 后 者 放弃 了 快速 访问 每 个 项 的 能 力 (链表 实现 )。 

除了 考虑 基本 的 空间 使 用 率 问 题 外 ， 我 们 常常 对 ADT 实 现 的 运行 时 间 的 性 能 差异 最 感 兴 
趣 。 在 这 里 ， 我 们 考虑 的 两 种 实现 在 性 能 上 只 有 很 少 的 一 点 差异 。 

性 质 4.1 可 以 在 一 个 常数 时 间 实 现下 推 栈 ADT 的 push 操 作 和 pop 操 作 ， 不 管 使 用 的 是 数组 
还 是 链表 。 恒 

这 一 事实 在 程序 4.4 和 4.5 中 很 快 得 到 验证 。 

栈 的 项 在 数组 实现 和 链表 实现 的 存储 顺序 不 同 ， 与 客户 程序 没有 关系 。 这 些 实现 可 以 自 
由 地 使 用 任何 数据 结构 ， 只 要 它们 能 够 保持 着 抽象 下 推 栈 的 幻像 。 在 这 两 种 情况 下 ， 实 现 能 
够 建立 高 效 的 抽象 实体 的 幻像 ， 能 够 实现 也 许 只 要 一 些 机 器 指令 就 可 以 实现 的 所 需 操作 。 维 
现 全 书 ， 我 们 的 目标 是 为 其 他 重要 的 ADT 找 到 数据 结 构 和 高 效 的 实现 。 


a “程序 4.5 下 推 栈 的 链表 实现 | | 
这 段 代码 实现 了 术 的 ADT， 如 图 4-5 所 示 。 它 使 用 辅助 函数 NE 来 为 一 个 节点 分 配 内 存 空 
间 ， 利 用 函数 参数 设置 它 的 域 ， 并 返回 指向 节点 的 指针 。 


#include <stdlib.h> 

#include "Item.h" 

typedef struct STACKnode* link; 

struct STACKnode { Item item; link next; }; 
static link head; 

link NEW(Item item, link next) 

{ link x = malloc(sizeof *x); 
x~>item = item; Xx->next = next; 
return XxX; 

} 

void STACKinit(int maxN) 
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{ head = NULL; } 
int STACKempty() 

{ return head == NULL; } 
STACKpush (Item item) 

{ head = NEW(item, head); } 
Item STACKpop() 

{ Item item = head->item; 
link t = head->next; 
free(head); head = 七 ; 
return item; 


} 





链表 实现 支持 栈 的 幻像 ， 它 能 够 无 限 地 增长 。 这 样 一 个 栈 在 实际 中 是 不 可 能 的 ， 在 某 些 
时 候 ， 当 对 更 多 的 内 存 的 需求 得 不 到 满足 时 ，ma11oc 操 作 将 返回 MULL。 也 可 能 对 基于 数组 的 
栈 的 大 小 实行 动态 的 增长 和 收缩 ， 当 队 列 已 经 有 一 半 是 满 的 时 候 ， 将 队列 长 度 加 倍 ;， 或 者 当 
队列 已 经 有 一 半 是 空 的 时 候 将 队列 的 长 度 减 半 。 我 们 将 对 这 一 实现 的 细节 留 到 第 14 章 的 练习 
中 去 ， 那 时 我 们 将 为 更 高 级 应 用 考虑 这 一 过 程 的 细节 。 
练习 

>4.18 使 用 程序 4.4， 执 行 完 图 4-1 所 示 的 操作 后 ， 给 出 s[0]，.…，s[4] 中 的 内 容 。 

54.19 假设 你 修改 了 关于 下 推 栈 中 的 关于 测试 是 否 为 空 的 接口 函数 ， 改 成 使 用 count， 它 将 返 
回 数 据 结 构 中 当前 的 项 的 数目 。 请 你 给 出 count 在 数组 表示 中 的 实现 (程序 4.4) 以 及 链表 表 
示 中 的 实现 (程序 4.5) 。 

4.20 ”修改 程序 4.4 的 代码 中 基于 数组 的 下 推 栈 的 实现 ， 如 果 客 户 在 栈 为 空 时 执行 了 pop 操 作 ， 
或 者 在 栈 满 时 执行 了 push 操 作 ， 则 调用 STACKerror 函 数 。 

4.21 修改 程序 4.5 的 代码 中 基于 链表 的 下 推 栈 的 实现 ， 如 果 客 户 在 栈 为 空 时 执行 了 pop 操 作 ， 
或 者 在 栈 满 时 执行 了 push 操 作 ， 则 调用 STACKerror 函 数 。 | 

4.22 修改 程序 4.5 的 代码 中 基于 链表 的 下 推 栈 的 实现 ， 使 用 一 个 索引 数组 实现 链表 ( 见 图 3-4) 
4.23 ”编写 一 个 基于 链表 的 下 推 栈 的 实现 ， 按 照 最 先 播 入 到 最 近 插 入 的 顺序 存储 项 ， 你 可 能 
需要 使 用 一 个 双向 链表 。 

“4.24 ”开发 一 个 ADT， 提 供 两 种 不 同 的 下 推 栈 给 客户 。 使 用 数组 实现 。 使 其 中 一 个 栈 使 用 数 
组 前 部 ， 另 一 个 使 用 数组 尾部 (如果 客户 程序 使 用 两 个 栈 ， 当 一 个 增长 的 时 候 而 另 一 个 收缩 ， 
这 一 实现 就 会 比 其 他 的 实现 所 使 用 的 空间 要 小 )。 

“4.25 ”为 整数 实现 一 个 中 缀 表达 式 求 值 函 数 ， 这 一 函数 包括 了 程序 4.2 和 程序 4.3， 使 用 练习 
4.24 中 定义 的 ADT。 


4.5 创建 一 个 新 ADT 


4.2 节 至 4.4 节 给 出 了 一 个 完整 的 C 代 码 例子 ， 它 捕获 了 我 们 最 重要 的 一 个 抽象 : 下 推 栈 。 
4.2 市 中 的 接口 定义 了 基本 的 操作 ，4.3 节 中 的 客户 程序 可 以 使 用 这 些 操作 ， 而 不 用 依靠 操作 是 
如 何 实现 的 ;4.4 市 中 的 实现 提供 了 所 需 的 具体 表示 以 及 实现 这 个 抽象 的 程序 代码 。 

要 设计 的 一 个 新 的 ADT， 我 们 常常 遵循 以 下 步 又。 从 开发 解决 一 个 应 用 问题 的 客户 程序 
的 任务 开始 ， 我 们 确定 看 上 去 是 至 关 重要 的 操作 ， 我 们 想 要 对 数据 做 什么 ? 然后 ， 我 们 定义 
一 个 接口 ， 编 写 客户 程序 来 测试 以 下 假设 ， 假 设 存 在 ADT， 使 我 们 容易 实现 客户 程序 。 接 下 
来 ,我 们 考虑 是 否 能 够 合理 高 效 地 实现 ADT 中 的 操作 。 如 果 不 能 ， 也 许 我 们 能 够 试 着 找 出 效 
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率 低下 的 原因 。 然 后 我 们 需要 修改 接口 的 设计 ， 需 要 将 那些 适合 高 效 实现 的 操作 加 到 ADT 中 
去 。 这 些 修正 影响 了 客户 程序 ， 因 此 我 们 也 要 相应 地 修改 它们 。 经 过 几 次 反复 ,我 们 得 到 了 
一 个 可 以 工作 的 客户 程序 和 一 个 可 以 工作 的 实现 ， 因 此 我 们 将 冻结 接口 : 我 们 的 原则 是 再 也 
不 改变 这 个 接口 。 这 个 时 候 ， 客 户 程 序 的 开发 和 实现 的 开发 就 可 以 分 开 进 行 了 : 我 们 可 以 写 
另 一 个 客户 程序 来 使 用 同一 个 ADT (也 许 我 们 需要 编写 一 些 驱动 程序 来 测试 我 们 的 ADT) ， 我 
们 可 以 编写 其 他 的 实现 ， 而 且 可 以 比较 不 同 实现 之 间 的 性 能 差异 。 

在 其 他 情况 下 ， 我 们 可 能 会 先 定 义 ADT。 这 种 方法 可 能 需要 问 以 下 问题 : 客户 程序 处 理 
即将 到 来 的 数据 需要 什么 样 的 基本 操作 ? 我 们 知道 的 哪些 操作 可 以 高 效 地 实现 ?开发 完 实现 
后 ， 我 们 可 能 需要 在 客户 程序 上 测试 它 的 效率 。 我 们 可 能 修改 这 个 接口 ， 在 最 终 冻 结 接 口 之 
前 做 更 多 的 测试 。 . 

在 第 1 章 里 ,我 们 从 抽象 角度 考虑 问题 ， 讨 论 了 一 个 详细 的 例子 ， 这 有 助 于 我 们 找 出 求解 
一 个 复杂 问题 的 高 效 算法 。 接 下 来 ， 我 们 考虑 使 用 本 章 讨论 的 通用 方法 来 封装 我 们 在 第 一 章 
开发 的 抽象 操作 。 

程序 4.6 根 据 两 个 操作 (除了 初始 化 操作 之 外 ) 定义 了 接口 ， 这 些 操作 似乎 在 更 高 一 级 的 
抽象 表征 了 我 们 在 第 1 章 中 讨论 的 连通 性 问题 的 算法 ， 无 论 采 用 什么 样 的 算法 和 数据 结构 ， 我 
们 希望 能 够 检查 出 两 个 节点 是 否 是 连通 的 ， 并 能 声明 那 两 个 节点 是 连通 的 。 


| 程序 4.6， 等 价 关系 ADT 接 口 ， 
ADT 接 口 机 制 使 我 们 可 以 根据 二 种 抽象 (初始 化 ， 志 找 是 否 两 个 节点 是 连通 的 ， 以 及 进 
行 合并 操作 ， 以 此 讨论 它们 的 连通 性 。) 方便 准确 地 编码 连通 算法 中 的 决定 。 


void UFinit (int); 
int UFfind(int, int); 
void UFunion(int, int); 





程序 4.7 是 一 个 客户 程序 ， 它 使 用 了 程序 4.6 的 接口 中 为 求解 连通 性 问题 而 定义 的 ADT。 使 
用 ADT 的 一 个 好 处 是 这 个 程序 易于 理解 ， 因 为 它 是 根据 抽象 来 编写 的 ， 这 种 抽象 允许 以 更 自 
然 的 方式 表示 计算 。 


: 程序 4.7 等 价 关 系 ADT 客 户 ， mW 
程序 4.6 中 的 ADT 把 连通 算法 与 合并 - 查找 实现 分 开 ， 使 算法 更 容易 理解 。 


#include <stdio.h> 
#include "UF.h" 
main(int argc, char *argv[]) 
{ int p, q, N = atoi(argv[1]); 
UFinit (N); 
while (scanf("%d %d", &p, &q) == 2) 
if (IUFfind(p, q)) 
{ UFunion(p, q); printf(" yd %d\n", p, q); } 
} 


程序 4.8 是 程序 4.6 中 定义 的 合并 一 查找 接口 的 一 种 实现 ， 它 使 用 了 两 个 数组 表示 树 的 森林 
这 一 数据 结构 ， 这 两 个 数组 用 作 已 知 连通 性 信息 的 基本 表示 ， 正 如 在 1.3 节 中 描述 的 一 样 。 第 
1 章 中 讨论 的 各 种 算法 表示 了 这 个 ADT 的 不 同 实 现 ， 我 们 可 以 测试 它们 ， 就 像 根本 没有 改变 过 
客户 程序 一 样 。 
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程序 4.8 等 价 关系 ADT 实 现 


第 1 章 中 的 带 权 一 快速 一 合并 代码 与 程序 4. 6 的 实现 ， 以 一 种 形式 封装 了 代码 ， 使 其 便于 应 
用 。 这 一 实现 使 用 了 局 部 函数 find。 
#include <stdlib.h> 
#include "UF.h" 
static int *id, *sz; 
void UFinit(int N) 
{ int i; 
id = malloc(N*sizeof (int)); 
sz = malloc(N*sizeof (int)); 
for (i = 0; i < N; i++) 
{ id[i] = i; sz[i] = 1; } 
static int find(int x) 
{ int i = x; 
while (i != id[i]) i = id[i]; return i; } 
int UFfind(int p, int q) 
{ return (find(p) == find(q)); } 
void UFunion(int p, int q) 
{ int 1 = find(p), j = find(q); 
if (i == j) return; 
if (sz[i] < sz[j]) 
{ id[i] = j; sz[j] += sz[i]; } 
else { id[j] = i; sz[i] += sz[j]; } 
} 


这 个 ADT 所 导致 的 程序 比 起 第 1 章 中 用 于 连通 应 用 的 程序 稍微 有 一 些 低 效 ， 因 为 它 没有 利 
用 那个 客户 的 性 质 ， 就 是 每 次 合并 操作 直接 跟着 一 个 查找 操作 。 我 们 有 时 候 会 导致 这 一 类 额外 
的 开销 ， 这 是 为 了 得 到 一 个 更 抽象 的 表示 而 付出 的 开销 。 在 本 例 中 ， 有 很 多 种 方法 来 避免 低 效 
性 ， 但 可 能 会 付出 另外 一 些 开销 ;使 接口 或 实现 更 复杂 的 开销 〈 见 练习 4.27) 。 实 际 中 ， 路 径 
非常 短 (特别 是 当 我 们 使 用 了 路 径 压缩 时 ) ， 因 此 那些 额外 的 开销 在 本 例 中 是 可 以 忽略 的 。 
。 程序 4.6 至 程序 4.8 的 组 合 在 操作 上 等 同 于 程序 1.3， 但 把 程序 分 成 三 部 分 是 一 种 更 高 效 的 
方法 ， 因 为 它 
。 把 求解 高 层次 问题 的 任务 (连通 性 ) 分 解 为 求解 低层 次 的 任务 (合并 -查找 ) ， 人 允许 我 
们 独立 地 解决 这 两 个 问题 。 
。 给 我 们 一 个 自然 的 方式 来 比较 解决 这 一 问题 的 不 同 算法 和 数据 结构 。 
。 提 供给 我 们 一 个 抽象 ， 我 们 可 以 使 用 它 来 写 其 他 的 算法 。 
。 通 过 接口 定义 了 一 个 方法 来 检查 软件 是 否 按照 期 望 来 操作 。 
。 提 供 了 一 种 机 制 来 允许 我 们 升级 到 新 的 表示 (新 的 数据 结构 或 者 新 的 算法 ) ， 而 完全 不 
用 更 改 客户 程序 。 
当 我 们 开发 计算 机 程序 时 ， 这 些 好 处 广泛 应 用 到 我 们 面 对 的 大 量 任务 中 ， 因 此 以 这 一 基 
本 原则 为 基础 的 ADT 被 广泛 应 用 。 
练习 
4.26 修改 程序 4.8 以 便 可 以 用 二 分 法 使 用 路 径 压 缩 。 
4.27 ”解决 程序 中 提 及 的 低 效率 的 问题 ， 通 过 在 程序 4.6 中 添加 一 个 操作 ， 将 合并 和 查找 操作 
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组 合 在 一 起 ， 提 供 程序 4.8 的 一 个 实现 ， 从 而 修改 程序 4.7。 
04.28 ”修改 接口 (程序 4.6) 和 实现 《程序 4.8)， 提 供 一 个 可 以 返回 与 一 给 定 节点 连通 的 节点 
的 个 数 的 函数 。 

4.29 修改 程序 4.8， 使 用 结构 数组 而 非 几 个 数组 用 于 基本 数据 结构 。 


4.6 FIFO 队 列 和 广义 队列 


FIFO (First-in，First-out， 先 进 先 出 ) 队列 是 另 一 个 基本 的 ADT， 它 和 下 推 栈 有 点 相似 ， 
但 在 决定 执行 delete 操 作 删 除 哪 个 元 素 的 时 候 ， 它 们 的 使 用 规则 刚好 相反 。 下 推 蕉 是 出 除 最 近 
插入 的 元 素 ， 而 FIFO 是 删除 那些 呆 在 队列 中 时 间 最 长 的 元 素 。 

也 许 我 们 繁忙 教授 的 收 件 箱 操作 起 来 就 像 一 个 FIFO 队 列 ， 因 为 先进 先 出 次 序 直观 上 看 起 
来 是 决定 下 一 步 做 什么 的 公平 方法 。 然 而 ， 那 个 教授 可 能 不 及 时 回电 话 或 上 课 ! 在 栈 里 ， 一 
个 备 忘 便条 也 许 会 埋 在 栈 底 ， 但 当 紧 急事 件 出 现时 可 以 马上 得 到 处 理 。 在 FIFO 队 列 里 ， 我 们 
系统 地 处 理 那些 任务 ， 但 是 每 一 个 任务 都 必须 排队 等 待 。 

FIFO 队 列 在 日 常生 活 中 常见 。 当 我 们 排队 买 票 看 电影 或 买 杂货 时 ， 我 们 实际 上 遵循 了 
FIFO 原 则 处 理事 情 。 类 似 地 ， 计 算 机 系统 中 常用 FIFO 队 列 保存 那些 希望 先 来 先 得 到 服务 的 任 
务 。 另 一 个 说 明 栈 和 FIFO 队 列 差别 的 例子 ， 就 是 杂货 店 商品 易 过 期 商品 的 存货 表 。 如 果 杂 货 
店主 把 新 商品 放 在 货架 的 前 部 分 ， 且 顾客 从 货架 前 面 拿 货物 ， 那 么 就 用 到 栈 的 原则 。 这 将 会 
给 杂货 店主 带 来 一 个 问题 ， 因 为 货架 后 头 的 商品 也 许 会 呆 在 那儿 很 长 一 段 时 间 ， 因 此 很 容易 
过 期 。 如 果 把 新 到 的 商品 放 在 货架 的 后 面 就 不 会 有 这 个 问题 。 因 为 杂货 店主 能 够 保证 每 一 样 
货品 呆 在 货架 上 的 时 间 最 长 只 能 为 顾客 买 完整 个 货架 的 货物 所 需 的 时 间 。FIFO 这 一 基本 原理 
应 用 到 了 许多 类 似 的 场合 。 

定义 4.3 ”FIFO 队列 是 这 样 一 种 ADT， 包 含 两 个 基本 操作 : 插入 (put) 一 个 新 的 项 ， 删 
除 (get) 一 个 最 早 插入 的 项 。 

程序 4.9 是 一 个 FIFO 队 列 ADT 的 接口 。 这 个 接口 与 我 们 在 4.2 节 讨论 的 栈 的 接口 只 在 术语 
上 有 所 不 同 ， 比 如 说 ， 对 于 编译 器 而 言 ， 这 两 个 接口 是 完全 一 样 的 ! 这 一 发 现 突 出 这 样 一 个 
事实 ， 抽 象 本 身 是 ADT 的 基本 组 成 部 分 ， 而 程序 员 通 常 并 没有 形式 定义 抽象 。 对 于 可 能 包含 
许多 ADT 的 大 型 应 用 问题 ， 准 确定 义 问 题 的 ADT 非 常 重要 。 本 书 中 我 们 所 论述 的 ADT 只 捕获 
了 在 书 中 所 定义 的 基本 概念 ， 并 没有 用 形式 语言 表示 出 来 ， 更 不 用 说 通过 了 特定 实现 。 我 们 
需要 讨论 儿 个 这 种 ADT 应 用 的 例子 ， 并 考察 它们 的 特定 实现 。 


除了 结 构 的 名 字 ， 这 一 接口 和 程序 4 1 的 下 推 栈 的 接口 完全 相同 。 这 两 个 ADT 的 区 别 仅仅 
在 于 它们 的 规范 ， 它 在 接口 代码 中 并 没有 提 及 。 

void QUEUEinit(inty) ; 

. int QUEUEempty () ; 

void QUEUEput (Item) ; 

Item QUEUEget () ; 





图 4-6 中 的 例子 通过 一 系列 的 get 操 作 和 pnut 操 作 ， 显 示 了 一 个 FIFO 队 列 变化 的 过 程 ， 每 一 
个 get 操 作 使 队列 的 大 小 减 1， 每 一 个 put 操 作 使 队列 的 大 小 增 1。 图 中 ， 队 列 中 项 按照 它们 被 播 
人 队列 的 次 序 链 成 一 个 表 ， 因 此 可 以 很 清楚 地 看 到 列表 中 的 第 一 个 项 将 会 是 get 操 作 要 返回 的 
项 。 进 一 步 来 说 ， 在 一 个 实现 中 我 们 可 以 随心 所 欲 地 按照 我 们 的 意愿 组 织 安排 这 些 项 ， 只 要 
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我 们 保持 项 的 组 织 方式 不 变 。 

为 了 使 用 链表 来 实现 FIFO 队 列 ADT， 我 们 需要 把 项 按照 从 最 早 插 入 到 最 近 插入 的 顺序 组 
织 成 表 ， 如 图 4-6 所 示 。 这 个 顺序 与 我 们 用 于 栈 实 现 的 顺序 正好 相反 ， 但 这 个 顺序 可 使 队列 操 
作 更 高 效 地 实现 。 我 们 在 链表 上 维持 两 个 指针 ; 一 个 在 开始 (从 这 里 我 们 可 以 删除 第 一 个 元 素 )， 
一 个 在 末尾 (从 这 里 我 们 可 以 插入 一 个 新 元 素 到 队列 中 )。 如 图 4-7 和 程序 4.10 中 的 实现 所 示 。 
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图 4-6 FIFO 队 列 示例 图 4-7 链表 队列 
注 : 这 个 列表 显示 了 左边 一 列 元 素 的 一 系列 操作 (从 上 注 : 在 这 个 链表 表示 的 队列 中 , 我 们 向 表 尾 插入 新 的 项 ， 
到 下 )， 其 中 字母 表示 put， 星 号 表示 get。 每 一 行 使 得 链表 中 的 项 从 头 到 尾 的 顺序 是 从 最 早 插入 到 最 
显示 了 操作 、get 操 作 返 回 的 字母 以 及 队列 的 内 容 ， 近 桂 入 的 顺序 。 用 两 个 指针 head 和 tail 表 示 队 列 ， 
从 左 到 右 的 顺序 是 最 时 插入 到 最 近 插 入 的 顺序 。 它们 分 别 指 向 链表 中 的 第 一 个 项 和 最 后 一 个 项 。 为 


了 从 队列 中 get 一 个 项 ， 我 们 删除 链表 藉 的 那个 项 ， 
方法 如 我 们 在 栈 里 所 做 的 那样 ( 见 图 4-5)。 为 了 
put 一 个 新 的 项 到 队列 中 ， 我 们 把 tai1 指 针 所 指 节 
点 的 链 域 指向 那个 新 的 节点 (中 间 那 个 图 )， 然 后 
更 新 tai1 指 针 ， 让 它 也 指向 那个 新 的 节点 (下 面 
那个 图 ) 。 


我 们 也 可 以 使 用 数组 来 实现 一 个 FIFO 队 列 ， 虽 然 我 们 不 得 不 注意 使 put 操作 和 get 操 作 的 运 
行 时 间 保 持 为 常数 。 这 一 性 能 要 求 表明 我 们 不 能 随意 移动 数组 内 的 队列 元 素 ， 不 像 在 图 4-6 中 
文字 上 的 解释 。 因 此 ， 正 如 在 链表 实现 中 所 做 的 那样 ， 给 数组 维持 两 个 索引 的 下 标 : 一 个 在 
队列 头 ， 一 个 在 队列 尾 。 我 们 把 队列 的 内 容 看 做 两 个 下 标 之 间 的 元 素 。 为 了 删除 一 个 元 素 ， 
我 们 把 它 从 队列 的 开始 ( 头 部 ) 删除 ， 然 后 使 头 索引 增 1。 为 了 插入 一 个 元 素 ， 我 们 把 它 加 到 
队列 的 最 后 (尾部)， 然 后 使 尾 索 引 增 1。 一 系列 的 put 和 get 操 作 使 得 队列 看 起 来 像 在 数组 中 移 
动 ， 如 图 4-8 所 示 。 当 它 到 达 数 组 的 末端 时 ， 我 们 使 它 回 到 数组 的 开始 部 分 。 这 一 计算 的 细节 
将 在 程序 4.11 的 代码 中 说 明 。 
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图 4-8 FIFO 队 列 示例 : 数组 实现 


注 : 这 一 序列 显示 了 当 我 们 通过 在 一 个 数组 中 存储 项 来 实现 队列 时 ,在 图 4-6 中 的 抽象 表示 之 下 的 数据 操纵 过 程 。 
保存 队列 中 头 下 标 和 尾 下 标 ， 然 后 当 它们 到 达 数 组 尾部 时 把 下 标 回 卷 到 数组 开始 的 地 方 。 在 这 个 例子 中 ， 
当 持 入 第 二 个 T 时 ，tail 下 标 回 卷 到 开始 的 地 方 ， 当 删除 第 二 个 S 时 ，head 索 引 也 需要 回 卷 。 


， 程 序 4.10 FIFO 队 列 链表 实现 


FIFO 队 列 和 下 推 栈 (程序 4 5) 的 区 别 在 于 新 项 的 插入 是 在 尾部 ， 而 不 是 在 头 部 。 
因此 ， 这 个 程序 保存 一 个 指向 链表 中 最 后 一 个 节点 的 尾 指针 tail ， 因 此 为 了 put 一 个 新 节 
点 到 队列 中 ， 函 数 QUEUEput 可 以 把 tail 指 针 所 指 节 点 的 链 域 指向 那个 新 节点 ， 然 后 更 新 taii1 
指针 ， 让 它 也 指向 那个 新 的 节点 。 函 数 QUEUEget、QUEUEinit 和 QUEUEempty 都 与 程序 4.5 下 推 
栈 的 链表 实现 中 与 之 相对 应 的 函数 完全 一 样 。 
#include <stdlib.h> - 
#include "Ttem.h" 
#include "QUEUVE.h" 
typedef struct WUEUEnode* link; 
struct QUEUEnode { Item item; link next; }:; 
static link head, tail; 
link NEW(Item item, link next) 
{ link x = malloc(sizeof *x); 
XxX->item = item; x->next = next; 
return Xi; 
} 
void QUEUEinit (int maxN) 
{ head = NULL; } 
int QUEUEempty() 
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{ return head == NULL; } 
QUEUEPut (Item item) 
{ 
if (head == NULL) 

{ head = (tail = NEW(item, head)); return; } 
tail->next = NEW(item, tail-~>next); 
tail = tail->next; 

} 

Item QUEUEget () 

{ Item item = head->itenm; 
link t = head->next; 
free(head); head = 七 ; 
return item; 


} 


性 质 4.2 ”我 们 可 以 在 常数 时 间 内 实现 FIFO 队 列 ADT 的 get 操 作 和 pnut 操 作 ， 不 论 使 用 数组 
还 是 链表 。 
考察 程序 序 4. 10 和 4 ! 的 代码 可 以 直接 清楚 这 一 事实 。 国 


“程序 4.11 ”FIFO 队列 数组 实现 1， ， 
队列 中 的 内 容 是 数组 中 从 head 到 tai1 的 所 有 元 素 ， 当 tai1 遇 到 数组 尾 的 时 候 将 会 回 卷 到 0。 
如 果 head 和 tail 重 合 ， 我 们 认为 此 时 队列 为 空 ， 但 是 如 果 put 操 作 使 它们 相等 ， 我 们 认为 此 时 
的 队列 为 满 。 通常 我 们 不 检查 这 样 的 错误 条 件 ， 但 是 我 们 设 定数 组 长 度 时 ， 会 将 它 设 为 比 客 
户 将 在 队列 中 放置 的 元 素 最 大 数目 大 1， 因 此 我 们 可 以 为 这 个 程序 加 上 这 样 的 检查 。 
#include <stdlib.h> 
#include "Item.h" 
static Item *q; 
static int N, head, tail; 
void QUEUEinit (int maxN) 
{ q = malloc((maxN+1)*sizeof (Item)); 
N = maxN+1; head = N; tail = 0; } 
int QUEUEempty() 
{ return head % N == tail; } 
void QUEUEput (Item item) 
{ qltail++] = item; tail = tail % Ni } 
Item QUEUEget () 
{ head = head % N; return q[head++]; } 


我 们 在 4.4 节 中 所 讨论 的 同样 内 容 可 应 用 于 FIFO 队 列 使 用 的 空间 资源 。 数 组 表示 需要 我 们 
为 在 计算 中 所 期 望 的 最 大 项 数 准 备 足 够 的 空间 。 然 而 ， 链 表 表 示 使 用 与 数据 结构 中 元 素数 目 
成 比例 的 空间 ， 指 针 花 费 了 额外 的 空间 ， 每 一 次 分 配 和 释放 内 存 的 操作 又 花费 了 额外 的 时 间 。 

因为 栈 和 递归 程序 的 基本 关系 〈 见 第 5 章 )， 我 们 遇 到 栈 的 机 会 比 我 们 遇 到 FIFO 队 列 的 机 
会 要 多 。 尽 管 如 此 ， 我 们 也 将 遇 到 一 些 以 队列 作为 自然 基本 数据 结构 的 算法 。 正 如 我 们 已 经 
注意 到 的 ， 在 计算 应 用 中 对 队列 和 栈 的 使 用 之 一 就 是 延期 计算 。 尽 管 许多 包括 一 个 不 完全 确 
定 队列 的 应 用 程序 能 够 正确 地 操作 ， 而 不 需要 管 delete 用 的 是 什么 规则 ， 但 总 体 运行 时 间 和 其 
他 资源 使 用 也 许 会 由 这 一 规则 决定 。 如 果 这 样 一 个 应 用 程序 包括 大 量 的 对 数据 结构 的 insert 和 
delete 操 作 ， 而 且 这 些 数据 结构 包括 大 量 的 项 ， 那 么 性 能 差异 就 会 变 得 极为 重要 。 因 此 ， 我 们 
在 本 书 中 特别 关注 这 样 的 ADT。 如 果 我 们 忽略 性 能 ， 我 们 可 以 阐述 一 个 包含 insert 和 delete 操 


94 畜 二 部 分 履 据 结构 


作 的 单个 ADT。 既 然 我 们 不 会 忽略 性 能 ， 那 么 从 本 质 上 说 ， 每 一 条 规则 组 成 一 个 不 同 的 ADT。 
为 了 评价 一 个 特定 ADT 的 高 效 性 ， 我 们 需要 考虑 两 类 开销 ;实现 开销 ， 它 依赖 于 我 们 实现 中 
对 算法 和 数据 结构 的 选择 ， 还 有 影响 到 客户 性 能 方面 特定 的 决策 规则 的 开销 。 作 为 本 节 的 总 
结 ， 我 们 将 描述 一 组 此 类 ADT， 并 贯穿 在 本 书 的 讨论 中 。 

特别 是 ， 下 推 栈 和 FIFO 队 列 都 是 一 个 更 通用 的 ADT 的 特例 ， 那 就 是 广义 队列 
(generalized queue)。 广 义 队列 的 实例 之 间 的 差别 仅仅 在 于 删除 项 时 使 用 的 规则 。 对 于 栈 来 说 ， 
规则 就 是 “删除 最 近 播 和 的 项 ”， 对 于 FIFO 队 列 来 说 ， 规 则 就 是 “删除 最 早 插入 的 项 *。 当 然 
还 有 很 多 其 他 的 可 能 性 ， 我 们 现在 讨论 其 中 的 几 个 。 

另 一 个 简单 但 功能 强大 的 队列 是 随机 队列 ， 其 中 使 用 的 规则 是 “随机 删除 一 个 项 ， 因 此 
客户 程序 就 能 够 在 等 概率 下 得 到 队列 的 任 一 项 。 使 用 数组 表示 〈 见 练习 4.42) ， 我 们 能 够 在 常 
数 时 间 内 实现 随机 队列 的 操作 。 和 栈 以 及 FIFO 队 列 一 样 ， 数 组 表示 也 需要 我 们 预先 保留 空间 。 
但 是 链表 与 栈 和 FIFO 队 列 相 比 就 没有 那么 吸引 力 了 ， 因 为 高 效 地 实现 它 的 插入 和 删除 都 是 一 
项 复杂 的 任务 〈 见 练习 4.43) 。 我 们 可 以 使 用 随机 队列 作为 随机 算法 的 基础 ， 尽 最 大 可 能 地 避 
免 最 坏 情 况 性 能 的 发 生 〈 见 2.7 节 )。 

我 们 已 经 按照 项 插入 队列 的 时 间 对 栈 和 FIFO 队 列 的 区 别 作 了 描述 。 我 们 还 可 以 按照 次 序 
列 出 项 ， 以 及 从 链表 的 开头 和 结尾 进行 的 基本 插入 和 删除 操作 来 描述 这 些 抽 象 的 概念 。 如 果 
我 们 在 末尾 插入 的 同时 也 是 从 末尾 进行 删除 ， 那 么 我 们 得 到 一 个 栈 (就 和 我 们 的 数组 实现 一 
样 ) ， 如 果 我 们 在 开头 插入 同时 从 开头 删除 ， 那 么 我 们 还 是 得 到 一 个 栈 (就 和 我 们 的 链表 实 
现 一 样 ) ， 如 果 我 们 在 末尾 插入 并 从 开头 删除 ， 那 么 我 们 得 到 FIFO 队 列 (就 和 我 们 的 链表 实 
现 一 样 ) ， 如 果 我 们 在 开头 插入 并 从 末尾 删除 ， 那 么 我 们 得 到 的 还 是 FIFO 队 列 (这 种 选择 并 
没有 和 我 们 的 任何 一 种 实现 相对 应 一 一 我 们 当然 也 可 以 把 数组 实现 修改 一 下 然后 精确 地 实现 
它 ， 但 是 链表 实现 在 此 并 不 适用 ， 因 为 当 我 们 删除 链表 末尾 的 项 时 ， 我 们 需要 备份 链表 尾部 
的 指针 ) 。 根 据 这 种 观点 来 创建 ADT 的 话 ， 我 们 将 会 得 到 双 端 队列 〈dequeue) ADT， 它 允许 
我 们 在 队列 的 任何 一 端 进行 插入 和 删除 操作 。 我 们 把 这 一 实现 留 作 练习 ( 见 练习 4.37 至 练习 
4.41)， 我 们 注意 到 基于 数组 的 实现 是 程序 4.11 的 直接 扩展 ， 而 且 链 表 实 现 需要 一 个 双向 链表 ， 
除非 我 们 限制 双 端 队列 只 允许 在 一 端 进行 删除 操作 。 

在 第 9 章 中 ， 我 们 将 讨论 优先 队列 (priority queue)， 在 优先 队列 里 ， 每 个 项 有 一 个 键 
(key) ， 并 且 删 除 规则 是 “删除 有 最 小 键 的 那个 项 。 优 先 队 列 ADT 在 大 量 的 应 用 中 很 有 用 ， 
而 且 多 年 来 为 这 一 ADT 寻 找 一 个 高 效 的 实现 已 经 成 了 计算 机 科学 的 一 个 研究 目标 。 在 应 用 中 
确定 并 使 用 这 一 ADT 已 经 成 为 研究 工作 的 一 个 重要 组 成 部 分 ;我 们 可 以 马上 指出 一 个 新 算法 
是 否 正 确 ， 只 需 用 它 代替 一 个 大 型 复杂 系统 中 的 旧版 实现 ， 然 后 检查 一 下 它们 是 否 得 到 一 样 
的 结果 就 行 了 。 进 一 步 来 说 ， 不 管 一 个 新 的 算法 是 否 比 旧 的 算法 要 高 效 ， 我 们 很 快 就 可 得 到 
指示 , 用 新 的 实现 来 代替 旧 的 版 本 改进 了 总 的 运行 时 间 。 我 们 在 第 9 章 为 了 解决 这 个 问题 而 讨 
论 的 数据 结构 和 算法 有 趣 、 有 独创 性 而 且 高 效 。 

从 第 12 章 至 第 16 章 ， 我 们 将 讨论 符号 表 (symbol table) ， 它 是 一 种 广义 队列 ， 其 中 每 个 
项 都 有 键 这 一 属性 ， 删 除 规则 是 :“ 删 除 那 些 键 与 给 定 键 相 等 的 项 ， 如 果 存 在 这 样 的 项 ”。 这 
个 ADT 也 许 是 我 们 所 讨论 到 的 所 有 ADT 中 最 重要 的 一 个 ， 我 们 将 会 检查 关于 它 的 数 十 种 实现 。 

这 类 ADT 中 的 每 一 种 又 会 引出 许多 与 之 相关 联 ， 又 有 所 差别 的 ADT， 那 些 ADT 把 自己 看 
成 是 对 客户 程序 和 实现 性 能 检查 的 副产品 。 在 4.7 节 和 4.8 节 中 ， 我 们 将 讨论 大 量 关 于 对 广义 队 
列 的 规范 的 修改 例子 ， 引 出 更 多 不 同 的 ADT， 当 然 ， 这 些 都 将 在 本 书后 面 加 以 讨论 。 
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练习 
>4.30 ”使 用 程序 4.11， 执 行 图 4-6 指 示 的 操作 ， 然 后 给 出 gq[0]，…，g[4] 的 内 容 。 假 定 图 4-8 中 
的 maxN 为 10。 
>4.31 ”在 以 下 序列 中 ， 字 母 表 示 put 操 作 ， 星 号 表示 get 操 作 ， 这 一 系列 操作 在 一 个 初始 为 空 的 
FIFO 队 列 中 执行 ， 给 出 每 一 次 get 操 作 返 回 的 值 的 序列 。 

EAS*Y*QUE***ST***|IO*N**., 

4.32 ”修改 程序 4.11 中 的 基于 数组 的 FIFO 队 列 实现 ， 加 上 一 个 QUEUEerror 国 数 ， 使 得 当 一 个 
客户 试图 从 空 队列 进行 get 操 作 ， 或 者 向 满 队 列 进行 put 操 作 的 时 候 调 用 它 。 
4.33 ”修改 程序 4.10 中 的 基于 链表 的 FIFO 队 列 实现 ， 加 上 一 个 QUEUEerror 函 数 ， 使 得 当 一 个 客 
户 试图 从 空 队列 进行 get 操 作 ， 或 者 向 队列 进行 put 操 作 但 没有 内 存 可 用 于 ma11oc 的 时 候 调 用 它 。 
>4.34 ”在 以 下 序列 中 ， 大 写字 母 表 示 揪 入 到 开头 ， 小 写字 母 表示 插入 到 结尾 ， 加 号 表示 从 开 
头 删除 ， 星 号 表示 从 末尾 删除 。 这 一 系列 操作 在 一 个 初始 为 空 的 双 端 队列 中 执行 ， 给 出 每 一 
次 删除 操作 返回 的 值 的 序列 。 


EAs+Y+QUE*:*+st+*+lO"n++". 


>4.35 ”使 用 练习 4.34 中 的 约定 ， 给 出 一 种 方法 ， 使 得 我 们 在 序列 E a s Y 中 插入 加 号 和 星 号 后 ， 
该 序列 get 操 作 返 回 : (i) Es a Y， (ii) Y as E，(iii) a Y s E， (iv) a s YE， 或 者 证 明 不 存在 这 
样 的 序列 。 

。4.36 ”给 定 两 个 序列 ， 给 出 一 个 算法 来 确定 是 否 可 能 通过 加 上 加 号 和 星 号 ， 使 得 第 一 个 序列 
能 够 产生 第 二 个 序列 ， 作 为 一 个 双 端 操作 的 序列 ， 按 照 练习 4.35 所 示 的 方法 来 解释 。 

>4.37 写 一 个 双 端 队列 的 ADT 接 口 。 

4.38 为 你 的 双 端 队列 接口 (练习 4.37) 提供 一 个 实现 ， 使 用 一 个 数组 作为 基本 数据 结构 。 
4.39 为 你 的 双 端 队列 接口 (练习 4.37) 提供 一 个 实现 ， 使 用 一 个 双 链 表 作 为 基本 数据 结构 。 
4.40 为 程序 4.9 中 的 FIFO 队 列 接口 提供 一 个 实现 ， 使 用 一 个 循环 链表 作为 基本 数据 结构 。 
4.41 ” 写 一 个 客户 程序 来 测试 你 的 双 端 链表 ADT (练习 4.37)， 通 过 读 取 一 个 像 练习 4.34 中 的 
指令 字符 串 ， 然 后 执行 已 指示 的 操作 。 字 符 串 作为 命令 行 的 第 一 个 参数 。 往 接口 和 实现 中 加 
上 一 个 函数 DaQdump ， 用 来 在 每 一 次 操作 后 打印 出 双 端 队列 的 内 容 ， 使 用 图 4-6 的 风格 。 

co4.42 ” 写 一 个 接口 和 一 个 实现 来 建立 一 个 随机 序列 ADT， 使 用 数组 作为 基本 数据 结构 。 确 保 
每 一 个 操作 都 是 常数 时 间 复 杂 度 。 

。。4.43 ” 写 一 个 接口 和 一 个 实现 来 建立 一 个 随机 序列 ADT， 使 用 链表 作为 基本 数据 结构 。 提 供 
insert 和 delete 操 作 的 实现 ， 尽 你 最 大 努力 提高 它们 的 效率 ， 然 后 分 析 它 们 的 最 坏 情况 开销 。 
>4.44 ” 写 一 个 客户 程序 ， 为 抽奖 抽取 数字 。 通 过 把 数字 1~99 放 进 一 个 随机 队列 中 ， 然 后 打印 
删除 它们 中 的 五 个 数字 得 到 的 结果 。 

4.45 “ 写 一 个 客户 程序 从 命令 行 的 第 一 个 参数 中 取 一 个 整数 W， 然 后 打印 出 N 个 扑克 牌 局 ， 方 
法 是 把 N 个 项 放 到 一 个 随机 队列 中 〈 见 练习 4.4) ， 然 后 打印 出 从 队列 中 一 次 拣 出 五 张 牌 的 结果 。 
。4.46 ” 写 一 个 程序 解决 连通 性 问题 ， 通 过 把 所 有 的 对 插入 到 一 个 随机 队列 中 ， 然 后 又 从 队列 
中 把 它们 拿 出 来 。 使 用 带 权 的 快速 查找 算法 程序 1.3)。 


4.7 复制 和 索引 项 


对 于 很 多 应 用 来 说 ， 我 们 所 处 理 的 抽象 项 是 独一无二 的 ， 它 们 的 这 个 性 质 导致 我 们 考虑 
政变 栈 、FIFO 队 列 或 者 其 他 广义 ADT 的 操作 的 问题 。 特 别 地 ， 在 这 一 节 里 ， 我 们 将 讨论 改变 
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栈 、FIFO 队 列 和 其 他 广义 队列 的 规范 使 它们 不 允许 数据 结构 的 重复 项 所 带 来 的 影响 。 

例如 ， 公 司 里 有 一 个 顾客 的 邮件 列表 ， 公 司 希 望 通过 插入 其 他 一 些 来 源 的 列表 这 一 操作 
使 这 个 列表 增长 ， 但 是 不 允许 插入 一 个 已 经 存在 的 顾客 资料 。 我 们 可 以 看 到 在 很 多 应 用 中 都 
需要 遵循 同样 的 原则 。 我 们 考虑 另 一 个 例子 ， 就 是 在 一 个 复杂 的 通信 网 络 中 路 由 一 条 信息 的 
问题 。 我 们 可 能 会 试 着 同时 穿越 网 络 中 的 几 条 路 径 ， 但 是 信息 只 有 一 条 ， 因 此 任何 特定 的 网 
络 节 点 在 它 的 内 部 数据 结构 中 都 只 能 有 这 一 信息 的 一 个 复制 。 

解决 这 一 状况 的 在 一 种 方法 是 让 客户 保证 重复 项 不 会 出 现在 ADT 中 ， 这 可 能 会 使 客户 使 
用 一 些 不 同 的 ADT 实 现 这 一 任务 。 但 是 ADT 的 设计 目的 是 为 客户 的 应 用 问题 提供 清晰 的 解决 
方案 ， 因 而 我 们 应 该 把 检测 和 解决 重复 性 的 问题 作为 ADT 应 该 解决 的 问题 的 一 个 部 分 。 

不 允许 重复 项 这 个 策略 是 抽象 的 一 个 变化 : 含有 这 个 策略 的 ADT 的 接口 、 操 作 名 字 等 和 
那些 没有 这 一 策略 的 ADT 一 样 ， 但 是 它们 的 实现 行为 从 根本 上 改变 了 。 通 常 ， 不 管 我 们 如 何 
修改 一 个 ADT 的 规范 ， 我 们 总 是 得 到 一 个 全 新 的 ADT 一 一 一 个 和 原来 的 ADT 相 比 有 着 完全 不 
同属 性 的 ADT。 这 种 状况 也 证 明了 ADT 规 范 的 不 稳定 性 : 保证 客户 和 实现 通过 接口 依附 到 规 
范 中 是 完全 不 足够 的 ， 但 是 像 这 样 强行 符合 一 个 高 级 策略 又 会 带 来 新 的 问题 。 但 是 ， 我 们 仍 
然 对 能 够 实现 这 一 策略 的 算法 很 感 兴趣 ， 因 为 客户 能 够 利用 这 个 属性 采用 新 的 方法 来 解决 问 
题 ， 并 且 实 现 也 可 以 利用 这 样 的 条 件 提 供 更 多 高 效 的 解决 方案 。 

图 4-9 显 示 了 一 个 修改 后 的 无 重复 项 栈 ADT 如 何 执行 图 4-1 中 所 示 的 操作 ， 图 4-10 显 示 了 
FIFO 队 列 改 变 后 的 影响 。 
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图 4-9 无 重复 项 的 下 推 栈 图 4-10 无 重复 项 的 FIFO 队 列 ， 忽 略 新 项 策略 
注 : 这 一 序列 显示 了 和 执行 图 4-1 中 的 操作 一 样 后 的 结 ” 注 : 这 一 序列 显示 了 执行 图 4-6 中 操作 后 的 结果 ， 但 这 
果 ， 但 是 这 里 用 的 是 对 象 不 允许 重复 的 栈 。 友 色 正 里 用 的 是 不 允许 重复 项 的 队列 。 友 色 正 方形 标志 
方形 标志 的 状态 表示 栈 在 操作 后 没有 改变 ， 因 为 正 的 状态 表示 队列 在 操作 后 没有 改变 ， 因 为 正 要 压 
要 压 入 栈 的 项 已 经 在 栈 中 存在 。 栈 中 项 的 数目 可 能 入 队列 中 的 项 已 经 在 队列 中 存在 。 
被 不 同 的 项 的 数目 所 限制 。 


通常 ， 客 户 在 为 一 个 已 存在 于 数据 结构 中 的 项 提交 插 人 请 求 时 ， 我 们 要 做 出 相应 的 对 策 。 
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但 是 我 们 应 不 应 该 执行 起 来 就 像 这 个 请 求 从 未 发 生 过 ， 或 者 说 ， 我 们 应 不 应 该 执行 起 来 像 是 
在 插入 之 后 紧 跟着 一 个 删除 ? 这 一 决定 会 影响 到 ADT 中 的 项 的 顺序 ， 尤 其 是 栈 和 FIFO 队 列 


( 见 图 4-11)， 这 样 的 区 别 对 于 客户 来 说 是 很 重要 
的 。 例 如 ， 使 用 这 样 的 ADT 来 处 理 邮 件 列表 的 公 
司 可 能 更 喜欢 使 用 新 项 (可 能 假设 新 项 中 有 更 多 
最 新 的 顾客 信息 ) ， 而 使 用 这 样 ADT 的 转换 机 制 可 
能 更 喜欢 忽略 掉 新 项 (可 能 它 已 经 采取 措施 发 送 
信息 )。 进 一 步 来 说 ， 这 一 策略 的 选择 影响 了 ADT 
的 实现 : 忘掉 旧 的 项 则 会 比 忘掉 新 的 项 更 难 实现 ， 
因为 它 需要 我 们 修改 数据 结构 。 

为 了 实现 广义 队列 的 无 重复 项 ， 我 们 假设 有 
一 个 抽象 操作 来 测试 项 的 相等 性 ， 就 像 4.1 节 中 讨 
论 的 一 样 。 给 定 这 样 一 个 序列 ， 我 们 仍然 需要 确 
定 一 个 将 要 插入 的 新 项 是 否 已 经 在 数据 结构 中 。 
通常 的 做 法 是 实现 符号 表 (symbol table) ADT， 
因此 我 们 可 以 在 第 12 章 至 第 15 章 里 给 出 的 实现 中 
讨论 这 一 ADT。 

还 有 一 种 特别 情况 我 们 是 可 以 直接 解决 的 ， 
那 就 是 程序 4.12 中 讨论 的 下 推 栈 ADT 实 现 。 这 一 
实现 假设 项 都 是 0~M 一 1 之 间 的 整数 。 然 后 ， 它 使 
用 了 第 二 个 数组 ， 用 项 本 身 作为 下 标 索 引 ， 来 检 
查 一 个 项 是 否 在 栈 中 。 当 我 们 插入 项 i 时， 我 们 把 
第 二 个 数组 中 的 第 i 个 项 置 为 !， 当 我 们 删除 项 i 
时 ， 我 们 把 这 个 数组 中 的 第 i 个 项 置 为 0。 因 此 我 
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图 4-11 无 重复 项 的 FIFO 队 列 ， 忘 掉 旧 项 策略 
注 ; 这 一 序列 显示 了 执行 图 4-10 中 操作 后 的 结果 ， 
但 使 用 了 一 个 (更 难 实现 的 ) 策略 ， 就 是 总 是 
在 队列 尾 添 加 新 项 。 如 果 有 重复 ， 则 删除 它 。 


们 可 以 像 以 前 一 样 ， 使 用 同样 的 代码 来 插入 项 和 删除 项 ， 只 要 增加 一 个 测试 操作 ， 插 入 一 个 
项 之 前 ， 我 们 可 以 检测 一 下 它 是 否 已 经 在 栈 中 。 如 果 是 ， 我 们 忽略 push 操 作 。 这 一 操作 不 依 
赖 我 们 使 用 数组 还 是 链表 (还 是 别 的 什么 ) 来 表示 栈 。 实 现 一 个 忽略 旧 项 的 策略 包括 了 更 多 


的 工作 ( 见 练习 4.51) 。 


程序 4.12 有 下 标 且 无 重复 项 的 栈 


这 一 下 推 栈 实现 假设 每 一 项 都 是 0~maxN-1 之 间 的 整数 ， 因 此 它 可 以 维持 一 个 数组 t， 这 个 
数组 中 的 非 零 值 对 应 着 栈 中 的 每 一 项 。 这 个 数组 使 得 STACKpush 操 作 很 快 地 检查 出 它 的 参数 是 
否 已 经 在 堆栈 中 ， 如 果 在 堆栈 中 ， 则 忽略 这 个 操作 。 我 们 在 t 中 对 每 一 个 项 只 使 用 一 个 位 的 空 
间 ， 因 此 如 果 需 要 ， 我 们 可 以 使 用 字符 或 者 位 代替 整数 来 节省 空间 ( 见 练习 12.12)。 


#include <stdlib.h> 
static int *S, *t; 
static int N; 
void STACKinit (int maxN) 
{ int i; 
s = malloc (maxN*sizeof (int)); 
t = malloc(maxN*sizeof (int)); 
for (i = 0; i < maxN; i++) t[i] = 0; 
N=0; 
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了 
int STACKempty() 
{ return !Ni } 
void STACKpush(int item) 
{ 
if (t[item] == 1) return; 
s[N++] = item; t[item] = 1; 
了 
int STACKpop() 
{ N--; t[s[N]] = 0; return s[N]; } 


总 而 言 之 ， 使 用 忽略 新 项 策略 实现 无 重复 项 的 栈 的 一 种 方法 是 : 保持 两 个 数据 结构 ， 第 
一 个 像 以 前 一 样 用 来 保持 栈 中 的 元 素 ， 以 记录 元 素 播 入 时 的 顺序 ， 第 二 个 是 一 个 数组 ， 用 项 
作为 下 标 索 引 记录 哪些 元 素 在 栈 中 。 这 样 使 用 数组 其 实 是 符号 表 实 现 的 一 个 特例 ， 我 们 将 会 
在 12.2 节 中 讨论 符号 表 。 我 们 可 以 把 这 个 技术 应 用 在 任何 广义 队列 ADT 中 ， 只 要 知道 广义 队 
列 中 的 项 是 0~M 一 1 中 的 整数 即 可 。 

这 样 的 特例 越 来 越 多 。 最 重要 的 例子 是 数据 结构 中 的 项 本 身 是 数组 的 索引 ， 因 此 我 们 把 
这 样 的 项 叫做 索引 项 。 典 型 地 ， 我 们 用 个 对 象 的 一 个 集合 ， 保 存在 另 一 个 数组 中 ， 我 们 需 
要 把 一 个 广义 队列 结构 传递 给 一 个 更 加 复杂 的 算法 作为 它 的 一 部 分 。 使 用 下 标 把 对 象 存放 在 
队列 中 ， 删 除 时 可 处 理 它 ， 并 且 每 个 对 象 只 能 处 理 一 次 。 在 无 重复 的 队列 中 使 用 数组 下 标 可 
以 直接 完成 这 一 目标 。 

每 一 种 选择 (不 允许 重复 ， 或 者 允许 ， 使 用 新 项 ， 或 者 不 使 用 ) 都 导致 一 个 新 的 ADT。 
它们 之 间 的 差别 很 小 ， 但 如 客户 程序 所 看 到 的 那样 ， 它 们 显然 会 影响 到 ADT 的 动态 行为 ， 并 
影响 选择 何 种 算法 和 数据 结构 来 实现 各 种 操作 ， 因 此 我 们 没有 别 的 选择 ， 只 能 够 分 别 对 待 所 
有 的 这 些 ADT。 进 一 步 来 说 ， 我 们 有 其 他 选择 需要 考虑 : 例如 ， 我 们 也 许 希 望 修改 接口 ， 使 
得 客户 程序 在 试图 插入 一 个 重复 项 时 能 够 通知 客户 程序 ， 或 者 提供 一 个 选择 给 客户 程序 ， 让 
它 决定 是 否 忽略 新 项 或 者 忘掉 旧 项 。 

当 我 们 非 正 式 地 使 用 一 个 项 ， 例 如 下 推 栈 (pushdown stack)、FIFO 队 列 、 双 端 队列 、 优 
先 队列 或 者 符号 表 的 时 候 ， 隐 含 指 的 是 一 入 (family) ADT， 每 一 种 ADT 都 定义 了 不 同 的 操 

” 作 集 以 及 关于 这 些 操作 含义 的 不 同 约 定 ， 对 某 些 情形 来 说 ， 每 一 种 需要 不 同 的 、 更 复杂 实现 
来 高 效 地 支持 这 些 操 作 。 

练习 

>4.47 对 照 着 图 4-9 中 栈 的 ADT， 使 用 忘掉 旧 项 策略 ， 画 一 个 无 重复 项 栈 的 图 表 。 

4.48 ”修改 4.4 节 中 标准 的 基于 数组 的 栈 实 现 (程序 4.4) ， 使 用 忽略 新 项 策略 ， 使 之 不 允许 重 
复 项 。 使 用 扫描 整个 栈 的 蛮 力 方法 。 

4.49 ”修改 4.4 节 中 标准 的 基于 数组 的 栈 实 现 (程序 4.4)， 使 用 忘掉 旧 项 策略 ， 使 之 不 允许 重 
复 项 。 使 用 扫描 整个 栈 的 变 力 方法 。 可 能 需要 重 排 整个 栈 。 

。4.50 修改 4.4 节 中 基于 链表 的 栈 实现 (程序 4.5) 做 练习 4.48 和 4.49。 

o4.51 开发 一 个 无 重复 项 下 推 栈 的 实现 ， 为 0~M-1 之 间 的 整数 项 使 用 一 个 忘掉 有 旧 项 策略 ， 保 
证 push 和 pop 操 作 花费 常数 的 时 间 。 提 示 : 使 用 一 个 双向 链表 表示 栈 ， 并 且 使 指针 指向 基于 项 
的 索引 数组 中 的 节点 ， 数 组 中 的 项 值 不 只 是 0/1 值 。 

4.52 对 于 FIFO 队 列 ADT 做 练习 4.48 和 4.49。 

4.53 对 于 FIFO 队 列 ADT 做 练习 4.50 。 
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4.54 对 于 FIFO 队 列 ADT 做 练习 4.51 。 
4.55 对 于 随机 队列 ADT 做 练习 4.48 和 4.49。 
4.56 对 于 练习 4.55 中 的 ADT 写 一 个 客户 程序 ， 实 现 一 个 无 重复 项 的 随机 队列 。 


4.8 一 级 ADT 


从 4.2 节 到 4.7 节 ， 我 们 讨论 了 栈 和 FIFO 队 列 ADT， 它 们 的 接口 和 实现 为 客户 提供 了 使 用 
某 种 广义 栈 或 队列 的 单个 实例 的 能 力 ， 达 到 了 隐藏 客户 在 实现 中 使 用 特殊 数据 结构 的 重要 目 
的 。 这 样 的 ADT 用 途 广泛 ， 并 可 作为 我 们 这 本 书 中 讨论 的 许多 实现 的 基础 。 

然而 当 把 这 些 对 象 考虑 成 ADT 本 身 时 是 极其 简单 的 ， 这 是 由 于 在 给 出 的 程序 中 只 有 一 个 
对 象 出 现 。 这 种 情况 类 似 于 操纵 在 只 有 一 个 整数 上 的 程序 。 我 们 可 以 增加 、 减 少 和 测试 整数 
的 值 ， 但 不 能 声明 变量 或 者 用 它 作 为 函数 的 参数 或 返回 值 ， 甚 至 也 不 能 与 另 一 个 整数 相 乘 。 
在 这 一 节 里 ， 我 们 讨论 如 何 构造 ADT， 使 我 们 可 以 像 在 操纵 客户 程序 中 内 置 类 型 那样 操纵 这 
些 ADT， 同 时 仍然 能 够 达到 隐藏 客户 实现 的 目的 。 

定义 4.4 ”一 级 数据 类 型 是 一 种 我 们 可 以 有 多 种 潜在 实例 的 类 型 ， 可 以 把 它 赋 给 那些 能 够 
声明 为 保存 这 些 实例 的 变量 。 

举例 说 明 ， 我 们 可 以 使 用 一 级 数据 类 型 作为 函数 的 参数 和 返回 值 。 

我 们 使 用 的 实现 一 级 数据 类 型 的 方法 可 以 应 用 到 任何 数据 类 型 中 : 特别 是 ， 可 以 应 用 到 
广义 队列 中 ， 这 为 我 们 提供 了 编写 操纵 栈 和 FIFO 队 列 的 程序 的 能 力 ， 方 法 和 我 们 操纵 C 中 其 
他 数据 类 型 是 一 样 的。 这 种 能 力 在 算法 的 研究 中 非常 重要 ， 因 为 它 为 我 们 提供 了 表示 涉及 诸 
如 ADT 这 样 的 高 级 操作 的 一 种 自然 途径 。 例 如 ， 我 们 可 以 讨论 联接 两 个 队列 的 操作 ， 也 就 是 
把 这 两 个 队列 组 合成 一 个 队列 。 我 们 将 会 讨论 在 优先 队列 上 (第 9 章 ) 和 符号 表 上 (第 12 章 ) 
实现 这 些 操作 的 算法 。 

某 些 现代 语言 提供 构建 一 级 ADT 的 特定 机 制 ， 但 是 思想 又 超越 了 特定 机 制 。 能 够 像 操 纵 
内 置 数据 类 型 如 int 或 f1oat 类 型 那样 操纵 ADT 的 实例 是 设计 许多 高 级 编程 语言 的 重要 目标 。 
因为 它 允 许 应 用 程序 被 编写 成 这 样 一 种 程序 ， 它 能 操纵 与 应 用 相关 的 主要 对 象 ， 允 许 程序 员 
同时 工作 在 大 型 系统 中 ， 所 有 这 一 切 都 使 用 精确 定义 的 一 个 抽象 操作 集合， 并 为 这 些 抽象 操 
作 的 实现 提供 了 多 种 途径 ， 例 如 ， 对 于 新 的 机 器 和 程序 设计 环境 ， 无 需 改 变 应 用 程序 的 代码 
就 可 做 到 。 某 些 语言 甚至 允许 操作 符 重 载 ， 这 允许 我 们 使 用 基本 的 符号 如 + 或 * 来 定义 操作 
符 。C 并 不 提供 对 构建 一 级 数据 类 型 的 特定 支持 ， 但 它 的 确 提 供 达到 那个 目标 所 使 用 的 基本 
操作 。 在 C 中 有 多 种 处 理 的 方法 。 为 了 把 重点 放 在 算法 和 数据 结构 上 ， 而 不 是 程序 设计 语言 
的 设计 上 ， 我 们 并 不 考虑 所 有 其 他 的 操作 ， 而 是 ， 我 们 只 描述 并 采用 在 本 书 中 使 用 的 一 种 便 
利 操作 。 

为 了 描述 基本 的 方法 ， 我 们 先 考 虑 一 个 一 级 数据 类 型 的 例子 ， 然 后 讨论 复数 (complex- 
number) 抽象 的 一 级 ADT。 我 们 的 目标 是 能 够 编写 像 程序 4.13 那 样 的 程序 ， 可 以 使 用 在 ADT 
中 所 定义 的 操作 对 复数 进行 代数 运算 。 我 们 实现 了 add 操 作 和 mnultiply 操 作 , 并 作为 标准 C 函 数 ， 
国 为 C 并 不 支持 操作 符 重 载 ， 

这 一 客户 程序 使 用 ADT 实 现 了 一 个 关于 复数 的 计算 ， 允许 它们 对 那些 直接 定义 的 Comp1ex 
类 型 变量 进行 计算 ， 以 及 把 这 些 变量 作为 函数 参数 和 返回 值 。 这 个 程序 通过 计算 单位 根 的 埋 
次 来 检查 这 一 ADT 的 实现 。 程 序 打印 出 的 表格 显示 在 图 4-12 中 。 
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#include <stdio .h> 
#include <math .hbh> 
#include "COMPLEX.h" 
#define PI 3.141592625 
main(int argc, char *argv[]) 
{ int i, j, N = atoi(argv [1]); 
Complex t, x; 


printf("%adth complex roots of unity\n", N); 


for (i = 0; i < N; i++) 
{ float r = 2.0*PI*i/N; 
t = COMPLEXinit (cos(r), sin(r)); 


printf("%2d %6.3f %6.3f ", i, Re(t), Im(t)); 


for (x = t, j= 0; j < N-1i; j++) 
x = COMPLEXmult (t, x); 


} 


程序 4.13 利 用 了 复数 的 一 些 数学 性 质 ， 我 
们 现在 暂时 离 一 下 题 ， 先 简要 讨论 一 下 这 些 性 
质 。 换 一 种 角度 考虑 ， 我 们 根本 没有 离 题 ， 因 
为 思考 把 复数 本 身 作为 一 种 数学 抽象 和 在 计算 
机 中 表示 这 种 抽象 之 间 的 关系 将 会 很 有 趣 。 

数字 i = VY-1 是 一 个 虚数 。 虽 然 作 为 实数 来 
说 V-1 没 有 意义 ， 我 们 仅仅 这 样 定义 i， 并 进行 
i 上 的 代数 操作 ， 任 何 时 候 只 要 出 现 关 就 用 一 1 代 
替 。 一 个 复数 (complex number) 由 两 部 分 组 
成 , 实 部 和 虚 部 一 一 复数 能 够 写成 a + bi 的 形式 ， 
其 中 a、5b 都 是 实数 。 为 了 进行 复数 的 乘法 ， 我 
们 应 用 常用 代数 法 则 ， 在 六 出 现 的 时 候 替 换 成 
一 1。 例 如 ， 





printf("%6.3f %6.3f\n", Re(x), Im(x)); 


0.000 1.000 0.000 
0.707 1.000 0.000 
1.000 1.000 0.000 
0.707 1.000 0.000 
.000 -0.000 1.000 0.000 
.707 -0.707 1.000 -0.000 
.000 -1.000 1.000 0.000 
.707 -0.707 1.000 -0.000 


0 
1 
2 
3 
4 
5 
6 
7 





图 4-12 复 单位 根 


注 ; 这 一 表格 给 出 了 当 我 们 用 8 作为 a.0Ut 的 命令 行 参 
数 时 ,程序 4.13 的 运行 结果 。 这 8 个 复 单 位 根 分 别 
为 +1，+i 和 (+ V212) (+ V2/2)i (左边 两 列 )。 这 8 
个 复数 中 的 任何 一 个 在 做 8 次 方 霖 运算 后 者 得 到 结 
果 1+0i (右边 两 列 ) 。 


(a + bi)(c + di)=ac+bcit+adit bdi?=(ac— bd)+(ad+ bc)i 
当 我 们 进行 一 个 复数 乘法 的 时 候 ， 实 部 或 者 虚 部 都 有 可 能 省 略 掉 〈 值 为 0) 。 例 如 ， 
(1 —D)0— Dd)=1—i-i+ ?=—2i 
(1+D4=4P= 一 4 
(1+i)*=16 
把 上 一 个 的 等 式 两 边 同 时 除 以 16， 考 虑 到 16 = (VY2)”， 我 们 发 现 


计划 
V2 V2 

通常 来 说 ， 有 很 多 的 复数 经 过 者 次 操作 之 后 会 等 于 1。 这 些 复数 称 为 复 单 位 根 。 实 际 上 ， 
对 每 一 个 整数 NW， 都 恰好 有 N 个 复数 z 满 足 z =1。 很 容易 就 能 够 写 出 来 这 些 数 k = 0，1，…， 
N 一 1 ， 宅 们 满足 这 个 性 质 ( 见 练习 4.63)。 例 如 ; 取 k = 1 和 N = 8 代入 下 式 ， 就 可 以 得 到 我 们 刚 


才 发 现 的 8 次 复 单位 根 。 


莫 了 人 间 和 把 闲 烧 据 类 型 





2nky .. /2xk 
cos( 到) + isin( 于 ， 

程序 4.13 是 复数 ADT 客 户 程 序 的 一 个 例子 ， 它 使 用 定义 在 ADT 中 的 乘法 操作 对 每 个 N 次 单 
位 根 执行 N 次 宪 操 作 。 程 序 的 输出 显示 在 图 4-12 中 。 我 们 希望 每 一 个 数 经 过 N 次 割 后 得 到 同样 
的 结果 1 或 者 1 + 0i。 

这 个 客户 程序 在 这 一 点 上 与 我 们 所 考虑 的 那些 客户 程序 的 不 同 之 处 在 于 ， 它 声明 了 类 型 
Comp1ex 的 变量 ， 并 向 这 些 变量 赋值 ， 还 包括 使 用 这 各 变量 作为 的 参数 条 返回 人 因此 ， 
我 们 需要 在 接口 中 定义 类 型 Comp1ex。 

程序 4.14 是 一 个 我 们 所 考虑 使 用 的 复数 接口 。 它 把 类 型 Comp1ex 定 义 为 由 两 个 浮 点 数 (一 
个 是 复数 的 实 部 ， 一 个 是 复数 的 虚 部 ) 组 成 的 struct ， 并 声明 了 处 理 复数 的 4 个 函数 :初始 化 
函数 、 取 复数 实 部 、 取 复数 虚 部 和 复数 乘法 。 程 序 4.15 给 出 了 这 些 函 数 的 直接 实现 。 并 且 这 
些 函数 中 的 两 个 函数 提供 了 复数 ADT 的 高 效 实现 ， 我 们 可 以 在 像 程序 4.14 这 样 的 程序 中 成 功 
使 用 它们 。 


A “程序 4.14 复数 的 一 级 数据 类 型 
这 个 关于 复数 的 接口 包括 一 个 typedef， 它 允许 实现 声明 为 Complex 类 型 的 变量 ， 并 使 用 这 
些 变量 作为 国 数 参数 和 返回 值 。 然 而 ， 数 据 类 型 不 是 抽象 类 型 ， 因 为 这 种 表示 没有 隐藏 客户 。 
typedef struct { float Re; float Im; } Complex; 
Complex COMPLEXinit (float, float); 
float Re(Complex); 
float Im(Complex); 
Complex COMPLEXmult (Complex, Complex); 


程序 4.15 复数 数据 类 型 的 实现 


这 些 复数 数据 类 型 的 函数 实现 是 直接 的 。 然而 ， 我 们 并 不 把 它们 从 Complex 美 型 的 定义 中 
分 离 出 来 ， 为 了 客户 方便 起 见 ， 这 个 类 型 定义 在 接口 中 。 
#include "COMPLEX.h" 
Complex COMPLEXinit (float Re, float Im) 
{ Complex ti t.Re = Re; t.Im = Im; return t; } 
float Re(Complex 2z) 
{ return z.Re; } 
float Im(Complex z) 
{ return z.Im; } 
Complex COMPLEXmult (Complex a, Complex b) 
{ Complex t; 
t.Re = a.Re*b.Re - a.Im*b.Im; 
t.Im = a.Re*b.Im + a.Im*b.Re; 
return t; 


} 








虚 部 ) 的 结构 体 。 然 而 ， 通 过 把 这 个 表示 放 在 接口 内 ， 可 以 使 它 也 能 为 客户 程序 所 用 。 程 序 
员 常用 这 种 方法 组 织 接口 。 本 质 上 说 ， 这 样 的 做 法 可 以 发 表 一 种 新 的 数据 类 型 的 标准 表示 ， 
可 以 为 许多 客户 程序 所 用 。 在 这 个 例子 中 ， 客 户 程序 可 以 直接 调用 任何 类 型 为 Comp1ex 的 变量 
t.Re 和 t.Im。 人 允许 这 样 访问 的 优点 是 ， 可 以 确保 没有 出 现在 操作 集中 且 需 要 直接 实现 其 操纵 
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的 那些 客户 程序 至 少 与 标准 表示 一 致 。 允 许 客户 程序 直接 访问 数据 的 缺点 是 如 果 要 改变 这 种 
表示 ， 必 须 改 变 所 有 客户 程序 。 总 而 言 之 ， 程 序 4.14 不 是 一 种 抽象 数据 类 型 。 因 为 接口 中 没 
有 隐藏 这 种 表示 。 

即使 对 于 这 样 简单 的 例子 ， 改 变 这 种 表示 的 难度 也 是 很 大 的 ， 因 为 还 有 另外 一 种 标准 表 
示 我 们 可 能 希望 能 够 考虑 使 用 的 极 坐标 ( 见 练习 4.62) 。 对 于 具有 更 复杂 数据 结构 的 一 个 应 
用 ,改变 表示 的 能 力 是 所 要 求 的 。 例 如 ， 公 司 在 处 理 邮 件 列表 时 ， 需 要 使 用 同一 客户 程序 来 
处 理 不 同 格式 的 邮件 列表 。 有 了 一 级 ADT， 客 户 程序 不 需 直接 访问 就 可 以 操纵 数据 ， 而 是 通 
过 操纵 定义 在 ADT 中 的 操作 间接 访问 就 可 以 了 。 像 取得 客户 名 这 样 的 操作 对 于 不 同 的 列表 格 
式 就 可 有 不 同 的 实现 。 这 种 安排 最 重要 含义 是 我 们 在 改变 数据 表示 时 不 必 改 变 客户 程序 。 

我 们 使 用 术语 句柄 (handle) 来 描述 对 抽象 对 象 的 引用 。 目 标 是 使 客户 程序 可 以 引用 用 于 
赋值 语句 中 的 抽象 对 象 ， 以 及 像 内 置 数 据 类 型 一 样 做 为 函数 的 参数 和 返回 值 ， 同 时 在 客户 程 
序 中 隐藏 对 象 的 表示 。 

程序 4.16 是 达到 此 目标 的 复数 接口 的 一 个 例子 ， 例 子 中 的 一 些 约定 的 使 用 将 会 贯穿 在 本 书 
中 。 名 柄 定义 为 指向 结构 体 的 一 个 指针 ， 该 结构 体 只 有 命名 标志 ， 没 有 明确 定义 。 客 户 程序 
可 以 用 任何 其 他 方式 使 用 这 个 句柄 : 它 不 能 通过 改变 指针 指向 来 访问 结构 体 中 的 一 个 域 ， 这 
是 因为 它 没 有 这 些 域 的 任何 名 字 。 在 接口 中 ， 我 们 所 定义 的 函数 ， 可 以 把 句柄 作为 函数 参数 ， 
也 可 以 把 句柄 作为 函数 值 返回 ， 客 户 程 序 可 以 使 用 这 些 函 数 ， 所 有 这 些 不 需 知道 任何 关于 这 
个 数据 结 构 的 信息 就 可 以 用 于 实现 这 个 接口 。 


1 ，， 程序 4.16 复数 的 -级 DT 
这 个 接口 为 客户 程序 提供 复数 对 象 的 句柄， 但 它 并 没有 给 出 关于 这 个 表示 的 任何 信息 ， 
除了 它 的 标志 名 以 外 ， 它 只 是 一 个 没有 详细 说 明 的 struct。 


typedef struct complex *Complex; 
Complex COMPLEXinit (float, float); 
float Re(Complex); 
float Im(Complex); 
Complex COMPLEXmult (Complex, Complex); 





程序 4.17 是 程序 4.16 的 接口 的 一 个 实现 。 它 定义 了 用 于 实现 句柄 和 数据 类 型 本 身 的 特定 数 
据 结 构 ， 定 义 了 可 以 为 一 个 新 的 对 象 分 配 内 存 空 间 并 初始 化 它 的 域 的 函数 ， 还 定义 了 能 够 访 
问 这 些 域 的 一 些 函 数 (我 们 可 以 通过 改变 句柄 指针 来 访问 参数 对 象 中 的 某 些 域 来 实现 ) 及 实 
现 ADT 操 作 的 一 些 函 数 。 所 有 关于 所 使 用 数据 结构 的 特定 信息 都 被 封装 在 实现 中 ， 因 为 客户 
程序 没有 办 法 引用 它 。 


程序 4.17 复数 ADT 的 实现 


与 程序 4. 15 相 比 ， 这 个 复数 ADT 的 实现 包括 了 结 吉 构 定义 ( 它 隐 藏 在 客户 程序 中 以 及 函 
数 实现 。 对 象 是 指向 结构 的 指针 ， 因 而 我 们 使 指针 指向 这 个 链 域 。 
#include <stdlib.h> 
#include "COMPLEX.h" 
struct complex { float Re; float Im; }; 
Complex COMPLEXinit (float Re, float Im) 
{ Complex 七 = malloc(sizeof *t); 
t->Re = Re; t->Im = Im; 
return t; 


了 
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float Re(Complex 2z) 
{ return z->Re; } 
float Im(Complex 2z) 
{ return z->Im; } 
Complex COMPLEXmult (Complex a, Complex b) 
{ 
return COMPLEXinit (Re(a)*Re(b) - Im(a)*Im(b), 
Re(a)*Im(b) + Im(a)*Re(b)); 
} 





在 程序 4.14 和 程序 4.15 中 的 关于 复数 数据 类 型 和 程序 4.16 和 程序 4.17 中 的 关于 复数 ADT 的 
差别 是 本 质 上 的 ， 因 而 值得 仔细 研究 。 我 们 可 以 使 用 这 种 机 制 开发 和 上 比较 本 书 中 的 基本 问题 
的 高 效 算法 。 我 们 将 不 进一步 详细 论述 在 软件 工程 中 使 用 这 些 机 制 的 所 有 含义 ， 但 它 是 一 种 
有 力 且 通用 的 机 制 ， 我 们 将 会 用 于 算法 和 数据 结构 及 其 实现 的 研究 中 。 

特别 是 ， 存 储 管理 问题 是 软件 工程 中 使 用 ADT 的 关键 问题 。 当 我 们 在 程序 4.13 中 说 x = t 
的 时 候 ， 变 量 x 和 t 都 是 Comp1ex 类 型 的 对 象 ， 我 们 简单 地 分 配 一 个 指针 。 另 一 种 方法 是 分 配 内 
存 给 一 个 新 对 象 ， 然 后 定义 显 式 copy 函 数 ， 把 与 t 关 联 的 对 象 中 的 值 复制 到 新 的 对 和 象 中 。 这 个 
copy 语 义 的 问题 对 于 任何 ADT 的 设计 同样 重要 。 我 们 通常 使 用 指针 赋值 〈 因 而 并 不 考虑 copy 
在 ADT 中 的 实现 问题 )， 因 为 我 们 强调 效率 一 一 这 种 选择 使 我 们 在 对 大 型 数据 结构 进行 操作 时 
对 于 额外 隐 含 开销 不 太 敏感 。C 字 符 串 数据 类 型 的 设计 就 是 基于 类 似 的 考虑 。 

程序 4.15 中 的 COMPLEXmu1t 的 实现 为 此 结果 创建 了 一 个 新 的 对 象 。 作 为 选择 ， 更 多 的 保留 
显 式 为 客户 程序 创建 对 象 操作 的 精 信 ， 我 们 会 在 其 中 一 个 参数 中 返回 这 个 值 。 正 如 它 闹 明 的 
那样 ，COMPLEXmu1t 有 一 个 称 为 内 存 泄漏 的 缺点 ， 这 使 得 程序 不 适用 于 大 量 乘法 操作 。 问 题 是 
每 个 乘法 操作 都 为 一 个 新 的 对 象 分 配 内 存 空间 ， 但 我 们 从 不 执行 任何 调用 来 释放 这 个 空间 。 
由 于 这 个 原因 ，ADT 常 常 包含 客户 程序 使 用 的 显 式 销毁 (destroy) 操作 。 然 而 ， 仅 有 销 级 操 
作 不 能 保证 额 庆 程 序 将 它 用 于 每 个 所 创建 的 对 象 。 内 存 江 沁 是 细 租 的 包 谢 ， 困 扰 许 多 大 型 和 
统 。 由 于 这 个 原因 ， 一 些 编程 环境 可 以 自动 使 系统 调用 destroy， 而 另 一 些 系统 可 以 自动 分 
内 存 空间 ， 其 中 系统 能 够 确认 程序 不 再 使 用 哪些 内 存 空 间 ， 并 回收 这 些 空间 。 这 此 方案 中 没 
有 一 种 方案 令 人 完全 满意 。 我 们 很 少 会 把 destroy 实 现 放 在 ADT 中 ， 因 为 我 们 会 把 这 些 因素 从 
算法 的 主要 特性 中 去 掉 。 

一 级 ADT 在 许多 实现 中 起 着 主要 作用 ， 这 是 因为 它们 为 我 们 在 4.1 节 所 讨论 的 泛 型 对 象 和 
对 象 集 的 抽象 机 制 提供 所 需 的 支持 ， 因 此 ， 我 们 使 用 Item 来 表示 在 广义 队列 ADT 中 所 操纵 的 
项 的 类 型 (包含 Item .h 接 口 文件 ) ， 它 的 正确 的 适当 实现 可 使 我 们 的 代码 用 于 客户 程序 可 能 需 
要 的 任何 数据 类 型 。 

为 了 进一步 说 明基 本 机 制 的 泛 型 特性 ， 我 们 使 用 刚才 用 于 复数 的 同一 基本 模式 ， 来 讨论 
FIFO 队 列 的 另 一 个 一 级 ADT。 程 序 4.18 是 这 个 ADT 的 接口 。 它 与 程序 4.9 的 不 同 之 处 在 于 ， 它 
定义 了 一 个 队列 句柄 〈 它 是 按 标准 方式 的 一 个 未 指明 结构 的 指针 ) ， 且 每 个 函数 把 队列 句柄 作 
为 参数 。 有 了 句柄 ， 客 户 程序 可 以 操纵 多 个 队列 。 

i ， ”程序 4.18 队列 的 一 级 ADT 接 口 a 

我 们 为 队列 提供 的 句柄 的 方式 与 在 程序 4.16 中 为 复数 提供 的 句柄 的 方式 完全 一样。 句柄 是 
一 个 指向 结构 体 的 指针 ， 除 了 标志 名 以 外 未 加 以 详细 说 明 。 


typedef struct queue *Q; 
void QUEUEdump (Q) ; 
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Q QUEUEinit (int maxN); 
int QUEUEempty(Q) ; 
void QUEUEput (Q, Item); 
Item QUEUEget(Q) ; 





程序 4.19 示 范 了 这 样 一 个 客户 驱动 程序 。 它 随机 地 把 N 个 项 赋 给 M 个 FIFO 队 列 中 的 一 个 ， 
然后 一 个 一 个 地 删除 队列 中 的 项 ， 把 队列 中 的 内 容 打 印 输出 ， 图 4-13 是 这 个 程序 所 产生 的 输 
出 结果 的 一 个 例子 。 我 们 对 这 个 程序 的 兴趣 在 于 说 明 一 级 数据 类 型 机 制 如 何 允 许 它 本 身 和 队 


列 ADT 本 身 作 为 高 级 对 象 一 起 工作 
提供 服务 的 方法 ， 诸 如 此 类 。 











可 用 对 象 句 栖 构建 带 有 


可 以 容易 地 扩充 程序 用 来 测试 各 种 组 织 队 列 以 对 顾客 


这 个 样板 客户 程序 中 的 数组 队 


列 ， 这 个 客户 程序 模拟 这 样 一 种 情况 ， 客 户 随机 地 被 赋 给 NM 个 服务 队列 的 其 中 一 个 服务 队列 ， 


并 等 待 服务 。 


#include <stdio.h> 
#include <stdlib.h> 
#include "Item.h" 
#include "QUEUE.h" 
#define M 10 
main(int argc, char *argv[]) 
{ int i, j, N = atoi(argv[1]); 
Q queues[M]; 
for (i = 0; i < M; i++) 
queues [i] = QUEUEinit (N); 
for (i = 0; i < N; i++) 
QUEUEput (queues [rand() % M] , j); 
for (i = 0; i < M; i++, printf("\n")) 
for (j = 0; !QUEUEempty(queues[i]); j++) 
printf("%3d ", QUEUEget (queues [i])); 
} 


程序 4.20 是 程序 4.18 中 所 定义 的 FIFO 队 列 ADT 的 
一 种 实现 ， 实 现 中 使 用 链表 作为 基本 的 数据 结构 。 这 
些 实现 和 程序 4.10 中 的 那些 实现 的 主要 区 别 是 变量 
head 和 tai1。 在 程序 4.10 中 ， 由 于 只 有 一 个 队列 ， 因 
而 我 们 可 以 在 实现 中 简单 地 声明 并 使 用 这 些 变量 。 在 
程序 4.20 中 , 每 个 队列 q 都 有 它 自己 的 指针 head 和 taii， 
通过 q->head 和 q->tai1 引 用 。 在 实现 中 struct 队 列 的 
定义 回答 了 针对 那个 实现 的 “队列 是 什么 ”的 问题 : 
在 这 种 情况 下 ， 队 列 是 指向 结构 体 的 指针 ， 该 结构 体 


61351 6471 84 90 

42326 34 38 62 78 

8 28 33 48 54 56 75 81 

215147 37 43 47 50 53 61 80 82 
12 25 30 32 36 49 52 63 74 79 


3 14 22 27 31 42 46 59 77 

9 19 20 29 39 45 69 70 73 76 83 
5 11 18 24 35 44 57 58 67 

0 1214041556672 

7 10 16 60 65 68 





图 4-13 随机 队列 模拟 


由 链接 到 队列 的 头 和 尾 的 链接 组 成 。 在 数组 实现 中 ， 注 : 迹 一 个 列表 给 出 了 用 84 作 为 程序 4.19 的 全 
队列 是 上册 struct 的 有 针 ， 访 结构 和 并 向 数 组 约 朱 他 人 
和 两 个 整数 组 成 ， 两 个 整数 分 别 为 数组 大 小 和 当前 队 

列 中 元 素 个 数 ( 见 练习 4.56) 。 一 般 而 言 ， 结 构 体 的 成 员 就 是 一 个 对 象 的 实现 中 的 全 局 变量 或 
静态 变量 。 


箱 4 章 热 刘 数据 类 型 





ee 程序 420 一 六 队列 的 链表 实现 

为 对 象 句柄 所 提供 的 实现 代码 一 般 要 比 为 单一 一 对 象 提供 的 代码 ( 见 程序 4.10) 麻烦 一 一 些 。 
这 个 代码 并 不 检查 当 一 个 客户 试图 从 空 队列 get， 或 者 ma11oc 返 回 不 成 功 时 的 错误 ( 见 练习 
4.33 ) 。 


#include <stdlib.h> 

#include "Item.h"' 

#include "QUEUE.h" 

typedef struct QUEUEnode* link; 

struct QUEUEnode { Item item; link next; }; 
struct queue { link head; link tail; }; 
link NEW(Item item, link next) 

{ link x = malloc(sizeof *x); 
X->item = item; x->next = next; 
return x; 

} . 

Q QUEUEinit(int maxN) 

{ Qq= malloc(sizeof *q); 
q~>head = NULL; 
return q; 


int QUEUEempty(Q q) 
{ return q->head == NULL; } 
void QUEUEput (Q q, Item item) 
{ 


if (q->head == NULL) 
{ q->tail = NEW(item, q->head); 
q->head = q->tail; return; } 
q->tail~>next = NEW(item, q->tail->next); 
gq->tail = q->tail->next; 
} 
Item QUEUEget (Q q) 
{ Item item = q->head->item; 
link t = q->head->next; 
free(q->head); q->head = +t; 
return item; 


} 





有 了 仔细 设计 的 ADT， 我 们 可 以 根据 不 同 的 兴趣 在 客户 程序 和 实现 之 间 分 开 使 用 它们 。 
例如 ， 我 们 在 开发 或 调试 ADT 的 实现 时 一 般 使 用 驱动 程序 。 类 似 地 ， 我 们 在 构建 系统 来 了 解 
客户 程序 的 属性 时 ,常常 会 使 用 ADT 的 不 完整 的 称 为 stub 的 实现 ,作为 placeholder 控 件 。 但 是 ， 
这 项 练习 对 于 依赖 ADT 实 现 语义 的 客户 程序 而 言 很 有 技巧 性 。 

正如 我 们 在 4.3 节 中 看 到 的 那样 ， 使 给 定 的 ADT 在 单个 程序 中 具有 多 个 实例 的 能 力 可 以 导 
致 复杂 的 情况 。 我 们 希望 栈 或 队列 允许 有 不 同类 型 的 对 象 操 作 在 其 上 吗 ? 同一 队列 中 对 象 类 
型 不 同 又 如 何 ? 在 我 们 知道 性 能 差异 的 情况 下 ， 我 们 希望 在 单个 客户 程序 中 使 用 同一 类 型 队 
列 的 不 同 实现 吗 ? 关于 实现 效率 的 信息 应 该 包含 在 接口 中 吗 ? 信息 的 格式 又 是 什么 ? 这 些 问 
题 强调 了 理解 基本 算法 和 数据 结构 的 特性 以 及 客户 程序 如 何 高 效 使 用 它们 的 重要 性 ， 在 某 种 
意义 上 ， 它 们 是 本 书 的 主题 。 然 而 ， 完 全 实现 它们 却 是 软件 工程 的 任务 ， 不 是 算法 设计 的 任 
务 。 因 而 ， 我 们 不 再 短期 开发 本 书 中 通用 的 这 些 ADT ( 见 第 二 部 分 参考 文献 )。 


706 第 二 序 分 妆 据 结构 


尽管 一 级 ADT 有 这 样 多 的 优点 ， 提 供 一 级 ADT 的 机 制 是 以 指针 引用 和 稍微 复杂 一 些 的 实 
现代 码 为 代价 的 ， 因 而 我 们 只 对 要 求 在 接口 中 用 作 参 数 或 返回 值 的 那些 ADT 使 用 这 些 完整 机 
制 。 一 方面 ， 使 用 一 级 类 型 可 能 把 大 部 分 代码 放 在 少量 的 大 型 应 用 系统 中 ， 另 一 方面 ， 只 有 
一 个 对 象 的 安排 ， 比 如 栈 、FIFO 队 列 以 及 4.2 节 至 4.7 节 的 广义 队列 ， 还 有 4.1 节 所 描述 的 使 用 
typedef 说 明 对 象 的 类 型 , 这 一 切 对 于 我 们 所 编写 的 大 部 分 程序 都 是 很 有 用 的 技术 。 在 本 书 中 ， 
我 们 介绍 了 后 面 所 讨论 的 大 部 分 算法 和 数据 结构 ， 然 后 在 有 保证 的 情况 下 把 这 些 实现 扩展 为 
一 级 ADT。 
练习 
>4.57 在 程序 4.16 和 程序 4.17 中 ， 为 复数 的 ADT 添 加 函数 COMPLEXadd。 

4.58 把 4.5 节 中 的 等 价 关 系 ADT 转 换 为 一 个 一 级 ADT。 

4.59 创建 一 个 一 级 ADT， 使 之 用 于 处 理 扑 克 牌 游戏 的 程序 中 。 

“4.60 ”编写 一 个 程序 来 经 验 性 地 测定 各 种 扑克 牌 局 发 出 来 的 可 能 性 ， 使 用 练习 4.59 中 定义 的 
ADT。 

4.61 ”创建 一 个 平面 上 的 点 的 ADT， 使 用 你 的 ADT 把 第 3 章 中 程序 3.16 的 最 近 点 对 程序 改 为 一 
个 客户 端 程序 

o4.62 为 复数 ADT 的 实现 开发 一 个 实现 ， 复 数 的 表示 基于 极 坐 标 (也 就 是 说 ， 形 式 是 re“”) 。 
。4.63 ”利用 等 式 re”= cos9 + sin96 来 证 明 e*” = 1， 以 及 证 明 N 个 N 次 复 单 位 根 是 : 


COS (Ein), k=0,1,.……, N-1 
NJ N / 


4.64 列 出 N 从 2~8 的 N 次 单位 根 。 
4.65 ”开发 书 中 (程序 4.18) 给 出 的 FIFO 队 列 一 级 ADT 的 一 个 实现 ， 使 用 数组 作为 基本 数据 
结构 。 
4.66 为 一 级 下 推 栈 ADT 编 写 一 个 接口 。 
4.67 为 你 在 练习 4.66 中 的 一 级 下 推 栈 ADT 开 发 一 个 实现 ， 使 用 数组 作为 基本 数据 结构 。 
4.68 为 你 在 练习 4.66 中 的 一 级 下 推 栈 ADT 开 发 一 个 实现 ， 使 用 链表 作为 基本 数据 结构 。 
co4.69 ”修改 4.3 节 中 的 后 绥 表 达 式 求 值 程序 ， 对 整数 系数 组 成 的 复数 后 组 表达 式 求 值 ， 使 用 程 
序 4.16 和 4.17 中 的 一 级 复数 ADT。 为 简单 起 见 , 假设 所 有 的 复数 的 实 部 和 虚 部 都 是 非 零 的 整数 ， 
各 部 分 之 间 设 有 空格 。 例 如 ， 当 给 出 以 下 输入 时 ， 你 的 程序 应 该 输出 8 + 4i。 

1+1i0+1L+ 1 一 21 关 3+4i 十 


4.9 基于 应 用 的 ADT 示 例 


作为 最 后 一 个 例子 ， 我 们 在 本 节 讨 论 一 个 特定 于 应 用 的 ADT。 这 个 ADT 代 表 了 应 用 领域 
与 我 们 在 本 书 中 讨论 的 那些 算法 及 数据 结构 之 间 的 关系 。 我 们 将 要 讨论 的 例子 是 多 项 式 ADT。 
它 来 自 符 号 数学 领域 ， 在 这 个 领域 里 ， 我 们 使 用 计算 机 来 帮助 处 理 抽象 数学 对 象 。 
我 们 的 目的 是 能 够 做 像 这 样 的 计算 : 
2x4 x xe 


2 3 3 
1-x+2 xt 1+ 4+ 
2 6 2 3 3 3 6 


我 们 也 希望 能 够 在 给 出 x 之 后 对 多 项 式 求 值 ， 例 如 x = 0.5， 该 等 式 两 边 都 得 到 同样 的 结果 
1.1328125。 乘 法 操作 、 加 法 操作 以 及 多 项 式 求 值 ， 这 些 操作 是 大 量 数学 计算 中 的 核心 问题 。 
程序 4.21 是 一 个 进行 符号 操作 的 简单 例子 ， 它 能 够 处 理 以 下 的 多 项 式 等 式 ; 


瘟 了 间 堆 彰 数 据 类 型 





(+1)2= 妇 +2x+l 
(+]7= 妇 +T3z+3x+l 

(xX+1) =x+4x +6x+4x+1 

(x +1) = x + Sxt + 10x3 + 10x2 十 5x + 1 


同和 基本 的 思想 扩展 到 因 直 分解 积分 、 求 导数 ， 或 者 关于 特殊 函数 的 知识 等 的 操作 。 


“1 多 项 式 客户 程序 (二 项 素数 ) Wn 
这 一 个 客户 程序 使 用 了 程序 4.22 接 口中 定义 的 多 项 式 ADT 来 进行 多 项 式 的 代数 运算 它 
从 命令 行 获 得 一 个 整数 N 和 一 个 浮 点 数 ?， 计 算 Gx + 1)” ， 然 后 计算 多 项 式 在 x = p 处 的 值 来 验算 
计算 结果 
#include <stdio.h> 
#include <stdlib.h> 
#incljude "POLY.h" 
main(int argc, char *argv[]) 
{ int N = atoi(argv[1]); float p = atof (argv [2]); 
Poly t, x; int i, j; 
printf("Binomial coefficients\n”"); 
t = POLYadd(POLYterm(i, 1), POLYterm(1i, 0)); 
for (i = 0, x=t; i < N; i++) 
{ x= POLYmult(t, x); showPOLY(x); 了 
printf("%f\n", POLYeval (x, p)); 
} 


正如 程序 4.22 里 展示 的 接口 一 样 ， 第 一 步 是 定义 多 项 式 ADT。 对 于 一 个 众所周知 的 数学 
抽象 ， 例 如 多 项 式 来 说 ， 它 的 规范 已 经 清楚 到 不 需要 再 说 的 地 步 (就 像 在 4.8 节 里 讨论 的 复数 
一 样 ) : 我 们 需要 这 个 ADT 实 例 的 表现 和 那些 众 所 周知 的 数学 抽象 完全 一 样 。 


程序 4.22 多 项 式 的 一 级 ADT 接 口 ， 


通常 来 说 ， 多 项 式 的 句柄 是 指向 结 # 构 体 的 指针 ， 该 结构 除了 标志 名 之 外 ， 没 有 进行 其 他 
详细 说 明 。 
typedef struct poly *Poly; 
void showPOLY(Poly) ; 
Poly POLYterm(int, int); 
Poly POLYadd (Poly, Poly); 
Poly POLYmult (Poly, Poly); 
float POLYeval(Poly, float); 


为 了 实现 接口 中 所 定义 的 函数 ， 我 们 需要 选择 一 个 特定 的 数据 结构 来 表示 多 项 式 ， 然 后 
实现 操纵 数据 结构 的 算法 来 提供 客户 程序 期 望 ADT 提 供 的 行为 。 通 常 来 说 ， 数 据 结 构 的 选择 
影响 算法 的 潜在 效率 ， 我 们 将 随意 讨论 几 个 。 数 据 结构 通常 选择 链表 表示 和 数组 表示 。 程 序 
4.23 是 一 个 使 用 数组 表示 的 实现 ， 链表 表示 的 实现 留 作 练 习 见 练习 4.70)。 


“程序 4.,23 多 项 式 ADT 的 和 0 
在 这 个 多 项 式 的 一 级 ADT 实 现 中 ， 多 项 式 是 一 个 结 吉 构 ， 它 由 度 (degree) 和 指向 系数 数组 
的 指针 组 成 。 为 简化 代码 ， 每 次 加 法 操作 修改 其 中 的 一 个 参数 。 每 次 乘法 操作 创建 一 个 新 的 
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对 象 。 在 某 些 应 用 中 还 需要 另 一 个 ADT 操 作用 于 销毁 对 象 (释放 相应 的 内 存 空间 ) 。 
#include <stdlib.h> 
#include "POLY.h" 
struct poly { int N; int *a; }; 
Poly POLYterm(int coeff, int exp) 
{ int i; Poly t = malloc(sizeof *t); 
t->a = malloc((expt1)*sizeof (int)); 
t->N = expt+1i; t->a[exp] = coeff; 
for (i = 0; i < exp; i++) t->a[i] = 0; 
return t; 
} 
Poly POLYadd(Poly p, Poly q) 
{ int i; Poly t; 
if (p->N < gq->N) {t=p;p=9q;4=t;} 
for (i = 0; i < q->N; i++) p->a[i] += q->a[i]; 
return Pp; 
} 
Poly POLYmult (Poly p, Poly q) 
{ int i, j; 
Poly t = POLYterm(0, (p->N-1)+(q->N-1)); 
for (i = 0; i < p->N; i++) 
for (j = 0; j < q->N; j++) 
t->a[i+j] += p->a[i]*q->a[j] ; 
return t; 
} 
float POLYeval (Poly p, float x) 
{ int i; double t = 0.0; 
for (i = p->N-1; i >= 0; i--) 
t = t*x + p->a[il]; 
return t; 


} 





要 想 进行 两 个 多 项 式 加 法 ， 我 们 只 要 把 它们 的 系数 加 起 来 就 行 了 。 如 果 多 项 式 用 的 是 数 
组 表示 ， 加 法 函数 是 对 数组 进行 单个 循环 ， 如 在 程序 4.23 中 显示 的 那样 。 想 要 进行 两 个 多 项 
式 的 来 法 ， 我 们 使 用 基于 分 配 律 的 基本 算法 。 我 们 用 其 中 一 个 多 项 式 的 每 一 项 乘 以 另 一 个 多 
项 式 的 每 一 项 ， 按 照 x 的 次 守 排 列 好 结果 ， 然 后 把 同 次 寡 的 项 加 起 来 就 得 到 最 后 结果 了 。 以 下 
表格 总 结 了 对 多 项 式 (1 -x+x2/2 -xz2/6)(1+x+ 刀 + 妇 ) 的 计算 过 程 : 


X2 x 
1-x+z -2 
6 
2 xX’ Xx 
+ 一 X + 一 一 一 ~ 
2 6 
3 
+X2 一 X3+ 二 一 一 
2 6 
5 .6 
X5 x 
+ 一 Xt + 二 -一 一 
2 6 
x x 2x4 x x 
1+ 1+- 并 - 





十 十 
2 3 3 3 6 
这 个 计算 过 程 看 上 去 所 需 的 时 间 与 NM? 成 正比 。 为 这 个 任务 找 一 个 更 快 的 算法 是 一 个 重要 
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的 挑战 。 我 们 将 在 第 八 部 分 详细 讨论 这 个 主题 ， 那 时 我 们 将 看 到 ， 使 用 分 治 法 可 能 找到 时 间 
复杂 度 正比 于 N” 的 算法 ， 以 及 使 用 快速 储 里 叶 变 换 找到 时 间 复杂 度 正比 于 N lg N 的 算法 来 完 
成 这 个 任务 。 

程序 4.23 里 的 求 值 函数 的 实现 使 用 了 一 个 传统 的 称 为 Horner 的 高 效 算法 。 这 个 函数 的 一 个 
直观 实现 包括 了 一 个 用 于 计算 六 的 函数 。 这 种 方法 需要 平方 时 间 。 一 种 不 那么 直观 的 实现 需 
要 把 x 的 值 存储 在 一 个 表 中 ， 然 后 在 后 面 计 算 需 要 的 时 候 直 接 读 取 就 行 了 。 这 种 方法 需要 线 
性 的 额外 空间 。Horner 算 法 是 一 种 直接 优化 的 线性 算法 ， 它 基于 如 下 的 加 括号 操作 : 


a + ad + a t+ axt+ao= (Gx + a)x + ay) x + a)x+ ao 


Horner 方 法 常常 被 认为 是 节约 时 间 的 小 技巧 ， 但 它 又 的 确 是 一 个 早期 的 精美 而 且 高 效 的 算 

法 的 杰出 例子 ， 它 把 这 一 基本 计算 任务 的 时 间 花 费 从 二 次 减少 到 了 线性 。 在 程序 4.2 中 进行 的 

把 ASCII 字 符 串 转换 到 整数 的 计算 是 Horner 算 法 的 一 个 版 本 。 在 第 14 章 和 第 五 部 分 ， 我 们 将 再 

次 遇 到 Horner 算 法 ， 作 为 一 个 与 特定 的 符号 表 以 及 字符 串 搜索 实现 相关 联 的 重要 计算 的 基础 。 

为 简化 和 高 效 起 见 ，POLYadd 修 改 其 中 的 参数 ， 如 果 在 应 用 中 选择 使 用 这 个 实现 ， 应 该 注 
意 到 规范 中 的 那个 事实 ( 见 练习 4.71)。 进 一 步 来 说 ， 我 们 还 有 内 存 泄漏 问题 ， 尤 其 是 在 
POLYmult 中 的 问题 ， 它 创建 了 一 个 新 的 多 项 式 来 存储 这 个 结果 ( 见 练 习 4.72)。 

通常 来 说 ， 用 数组 表示 来 实现 多 项 式 ADT 只 是 一 种 可 能 性 而 已 。 如 果 指 数 很 大 ， 而 且 项 
不 多 ， 链 表 表 示 也 许 更 合适 一 些 。 例 如 ， 我 们 不 会 想 用 程序 4.23 来 进行 如 下 的 乘法 操作 : 

(1 + X10000) (1 + X20000) = 1 十 X1000000 十 x2000000 3000000 

因为 它 将 使 用 的 数组 将 会 有 近 百 万 个 未 曾 使 用 的 空间 浪费 。 练 习 4.70 详 细 讨 论 了 链表 实现 

的 方法 。 | 
练习 | 
4.70 ”提供 一 个 程序 4.22 中 给 出 的 多 项 式 ADT 的 实现 ， 使 用 链表 作为 基本 数据 结构 。 你 的 链 
表 不 能 含有 任何 系数 为 0 的 项 的 节点 。 

>4.71 修改 程序 4.23 中 的 POLYadd 中 的 实现 ， 使 之 操作 类 似 于 PO0LYmu1t 的 操作 (不 能 修改 其 中 
任何 一 个 的 参数 )。 

04.72 修改 书 (程序 4.21 到 程序 4.23) 中 多 项 式 的 ADT 接 口 、 实 现 以 及 客户 程序 ， 使 其 没有 内 
存 泄 沁 。 要 完成 这 项 功能 ， 需 要 定义 新 的 操作 POLYdestroy 和 P0LYcopy， 它 们 分 别 释放 对 象 
的 内 存 空 间 和 把 对 象 的 值 复 制 到 另 一 个 对 象 中 ， 修改 POLYadd 和 POLYmu1t 用 来 销毁 它们 的 参 
数 ， 并 按 常规 返回 一 个 新 创建 的 对 象 。 

co4.73 扩展 书 中 给 定 的 多 项 式 ADT， 使 之 包括 多 项 式 积分 和 多 项 式 求 导 操 作 。 

o04.74 修改 练习 4.73 中 的 多 项 式 ADT， 使 之 忽略 所 有 指数 大 于 或 等 于 整数 M 的 项 ，M 由 客户 初 
始 化 的 时 候 提 供 。 

4.75 扩展 练习 4.73 中 的 多 项 式 ADT， 使 之 包括 多 项 式 因 式 分 解 操 作 。 

。4.76 ”开发 一 个 ADT， 人 允许 客户 程序 对 任意 长 的 整数 执行 加 法 和 乘法 操作 。 

“4.77 ”修改 4.3 节 中 的 后 绥 表 达 式 求 值 程序 ， 使 之 能 够 对 任意 长 的 整数 组 成 的 后 缀 表达 式 求 值 ， 
使 用 你 在 练习 4.76 中 开发 的 ADT。 

%4.78 编写 一 个 使 用 你 在 练习 4.75 开 发 的 多 项 式 ADT 的 客户 程序 来 计算 积分 。 使 用 泰勒 级 数 
(Taylor series) 的 近似 函数 ， 符 号 化 地 处 理 它 们 。 

4.79 为 客户 程序 开发 一 个 ADT， 使 它 能 够 处 理 浮 点 数 向 量 的 算术 运算 。 
4.80 ”为 客户 程序 开发 一 个 ADT， 使 它 能 够 对 抽象 对 象 的 矩阵 进行 算术 运算 : 其 中 加 法 、 减 


110 解 二 部 分 履 据 结 欧 


法 和 除法 已 经 定义 。 

4.81 ”为 字符 串 ADT 编 写 一 个 接口 ， 读 ADT 包 括 创 建 字符 串 、 比 较 两 个 字符 串 、 连 接 两 个 字 
符 串 、 把 一 个 字符 串 复制 到 另 一 个 字符 串 中 ， 以 及 返回 字符 串 长 度 等 操作 。 

4.82 为 你 的 练习 4.81 中 的 字符 串 ADT 接 口 提供 一 个 实现 ， 在 适当 的 时 候 使 用 C 语 言 的 string 库 。 
4.83 为 你 的 练习 4.81 中 的 字符 串 ADT 接 口 提供 一 个 实现 ， 使 用 链表 作为 基本 的 表示 方式 ， 分 
析 每 种 操作 在 最 坏 情 况 下 的 运行 时 间 。 

4.84 ”为 一 个 索引 集 ADT 编 写 一 个 接口 和 一 个 实现 ， 处 理 0~M 一 1 之 间 的 整数 集合 (M 是 已 定 
义 的 常数 ) ， 包 括 以 下 操作 : 创建 一 个 集合 、 计 算 两 个 集合 的 并 集 、 计 算 两 个 集合 的 交集 、 计 
算 一 个 集合 的 补 集 、 计 算 两 个 集合 的 差 集 ， 以 及 打印 输出 一 个 集合 的 内 容 。 在 你 的 实现 里 面 
使 用 一 个 长 度 为 M 一 1 的 0 一 1 数组 来 表示 每 一 个 集合 。 

4.85 编写 一 个 客户 程序 测试 你 在 练习 4.84 中 的 ADT。 


4.10 展望 


我 们 在 从 事 算法 及 数据 结构 的 学 习 时 ， 有 三 个 主要 原因 让 我 们 了 解 基本 ADT 的 基本 概念 : 
"ADT 是 一 个 广泛 应 用 的 重要 的 软件 工程 工具 ， 我 们 学 习 的 许多 算法 都 是 一 些 广泛 使 用 的 
基本 的 ADT 的 实现 。 

"ADT 帮 助 我 们 封装 所 开发 的 算法 ， 这 样 我 们 就 可 以 把 同样 的 代码 用 于 不 同 目的 。 

"ADT 在 我 们 开发 和 比较 算法 性 能 的 过 程 中 提供 了 一 种 方便 使 用 的 机 制 。 

理想 情况 下 ，ADT 实 现 了 我 们 希望 精确 描述 我 们 操纵 数据 方式 的 通用 原理 。 我 们 在 这 一 
章 里 详细 讨论 的 客户 一 接口 一 实现 机 制 对 C 的 这 个 任务 来 说 是 很 方便 的 ， 而 且 这 种 机 制 以 C 代 
码 的 形式 为 我 们 提供 了 一 些 想 要 的 特性 。 现 代 许 多 语言 有 着 特别 的 支持 来 允许 我 们 开发 具有 
类 似 性 质 的 程序 ， 但 是 通用 的 方法 超出 了 特定 语言 的 范围 一 一 当 我 们 没有 指定 语言 支持 的 话 ， 
我 们 采用 传统 的 编程 习惯 来 保持 客户 、 接 口 和 实现 之 间 的 分 离 。 

当 我 们 讨论 一 个 日 益 扩 大 的 关于 确定 ADT 行 为 的 选择 集合 时 ， 我 们 将 会 面 对 一 个 日 益 扩 
大 的 关于 提供 高 效 实现 的 挑战 性 问题 的 集合 。 我 们 讨论 的 大 量 例子 展示 了 迎接 这 些 挑战 的 方 
法 。 我 们 持续 不 断 地 努力 ， 以 达到 高 效 地 实现 所 有 操作 的 目标 ， 但 是 我 们 不 可 能 有 一 个 通用 
的 实现 能 够 为 所 有 的 操作 集合 达到 这 个 目标 。 这 种 状况 会 与 ADT 为 首要 地 位 的 原则 相抵 触 ， 
在 许多 情况 下 ，ADT 的 实现 需要 知道 客户 程序 的 性 质 ， 才 能 确定 哪 种 实现 才 会 使 客户 程序 最 
高 效 地 运行 ， 而 客户 程序 的 实现 这 又 需要 知道 各 种 不 同 实现 的 性 能 特性 ， 才 能 确定 为 特定 应 
用 选择 哪 种 实现 。 一 如 既往 ， 我 们 必须 在 其 中 找到 平衡 点 。 在 这 本 书 中 ， 我 们 讨论 了 大 量 的 
方法 来 实现 各 种 不 同 的 基本 ADT， 所 有 这 些 都 有 很 重要 的 应 用 。 

我 们 可 以 根据 一 个 ADT 来 构建 另外 一 个 ADT。 我 们 使 用 C 提 供 的 指针 和 结构 抽象 来 建立 
链表 。 然 后 使 用 C 提 供 的 链表 或 者 数组 抽象 来 建立 下 推 栈 ， 接 着 使 用 下 推 栈 来 获得 计算 算术 表 
达 式 的 能 力 。ADT 的 概念 允许 我 们 在 不 同 的 撒 象 层次 上 构造 大 型 的 系统 ， 从 计算 机 本 身 提 供 
的 机 器 语言 指令 到 大 量 编程 语言 提供 的 各 种 能 力 ， 进 行 排序 、 搜 索 以 及 本 书 第 三 部 分 和 第 四 
部 分 讨论 的 算法 所 提供 的 其 他 高 级 能 力 ， 甚 至 是 各 种 应 用 所 要 求 的 高 级 抽象 层次 ， 正 如 我 们 
在 第 五 部 分 至 第 八 部 分 所 讨论 的 那些 抽象 一 样 。ADT 是 不 断 开发 甚至 是 更 强 有 力 的 抽象 机 制 
的 关键 ,而 这 一 点 又 是 使 用 计算 机 高 效 地 解决 问题 的 本 质 所 在 。 


第 5 章 递归 与 树 


递归 (recursion) 是 数学 与 计算 机 科学 中 的 基本 概念 。 在 编程 语言 中 ， 递 归程 序 可 被 简 
单 定义 为 自我 调用 的 程序 (正如 在 数学 中 递归 函数 是 根据 自身 定义 的 一 样 )。 递 归程 序 不 能 总 
是 自我 调用 ， 否 则 会 永 不 终止 (类 似 于 递归 函数 不 能 总 是 由 自身 定义 ， 否 则 定义 就 会 无 限 循 
环 )。 因 此 第 二 个 基本 要 素 就 是 ， 必 须 存在 一 个 终止 条 件 ， 让 程序 得 以 停止 对 自身 的 调用 (就 
如 数学 函数 不 再 根据 自身 来 定义 )。 所 有 的 实际 计算 都 可 以 借助 递归 的 框架 表达 出 来 。 

递归 与 称 为 树 的 以 递归 方式 定义 的 结构 的 研究 是 互相 重合 的 。 我 们 使 用 树 既 有 助 于 理解 
和 分 析 递 归程 序 ， 也 可 以 解释 清楚 这 些 数据 结构 。 我 们 在 第 1 章 已 经 磁 到 过 树 的 应 用 程序 ( 尽 
管 那 不 是 递归 形式 的 )。 递 归程 序 与 树 之 间 的 联系 是 本 书 大 量 内 容 的 基础 。 使 用 树 来 理解 递归 
程序 ， 同 时 也 用 递归 程序 来 创建 树 ， 还 利用 二 者 的 基本 关系 (递归 关系 ) 来 分 析 算 法 。 递 归 
有 助 于 为 各 种 应 用 程序 开发 出 精致 高 效 的 数据 结构 和 算法 。 

本 章 的 主要 目的 是 从 实用 工具 的 角度 考察 递归 程序 与 数据 结构 。 首 先 ， 讨 论 数学 递归 方 
程 与 简单 递归 程序 之 间 的 关系 ， 并 考察 大 量 的 实际 递归 程序 。 接 着 考察 称 为 分 治 法 (divide- 
and-conquer) 的 基本 递归 模式 ， 并 会 用 它 来 解决 在 后 续 几 章 出 现 的 基本 问题 。 然 后 考察 称 为 
动态 规划 的 实现 递归 程序 的 一 般 性 方法 ， 它 能 为 一 大 类 问题 提供 精致 高 效 的 解决 方法 。 接 下 
来 我 们 详细 研究 树 及 其 数学 性 质 ， 还 有 与 之 相关 的 算法 ， 包 括 树 遍历 (tree traversal) 的 基本 
方法 ， 这 些 方 法 是 递归 树 处 理 程序 的 基础 。 最 后 ， 我 们 再 进一步 考察 处 理 图 的 相关 算法 ， 并 
将 特别 关注 一 种 基本 的 递归 程序 一 一 深度 优先 搜索 (depth-first search)， 它 是 许多 图 处 理 算法 
的 基础 。 

正如 我 们 将 要 看 到 的 ， 许 多 有 趣 的 算法 简单 地 使 用 递归 程序 来 表达 ， 许 多 算法 设计 者 也 
喜欢 以 递归 方式 表达 各 种 方法 。 我 们 同样 详细 研究 非 递 归 的 方法 ， 不 仅 是 我 们 常常 能 简单 设 
计 那 些 基 于 栈 的 本 质 上 与 递归 等 价 的 算法 ， 而 且 还 能 通过 不 同 的 计算 序列 找到 得 到 同一 结果 
的 另 一 种 非 递归 方法 。 因 此 递归 公式 为 我 们 寻求 其 他 更 高 效 的 方法 提供 了 一 个 框架 。 

关于 递归 和 树 的 完整 讨论 可 以 写成 一 本 书 ， 因 为 它们 出 现在 计算 机 科学 的 诸多 应 用 中 ， 
并 且 广 泛 存 在 于 其 他 学 科 中 。 实 际 上 ， 这 本 书 就 是 关于 递归 和 树 的 全 面 讨 论 ， 因 为 它们 是 以 
基础 的 方式 出 现在 书 中 的 每 一 章 里 。 


5.1 递归 算法 


递归 工法 就 是 通过 解决 同一 问题 的 一 个 或 多 个 更 小 的 实例 来 最 终 解 决 一 个 大 问题 的 算法 。 
为 了 在 C 语 言 中 实现 递归 算法 ， 常 常 使 用 递归 函数 ， 也 就 是 说 能 调用 自身 的 国 数 。C 语 言 中 的 
递归 函数 相当 于 数学 函数 的 递归 定义 。 我 们 研究 递归 就 从 考察 直接 求 值 数学 函数 的 程序 开始 ， 
并 从 它 的 基本 机 制 扩展 到 一 种 通用 的 程序 设计 范 型 。 我 们 将 会 看 到 这 个 范 型 。 

递归 关系 ( 见 2.5 节 ) 是 递归 定义 的 函数 。 一 个 递归 关系 定义 一 个 函数 ， 该 函数 的 定义 域 
是 非 负 整 数 ， 可 以 赋 初 始 值 或 以 更 小 整数 的 递归 方式 实现 。 或 许 你 最 熟悉 的 函数 是 阶乘 函数 ， 
它 由 以 下 递 推 关系 定义 : 

NI=N: CN-DINz1l 且 0!=1 
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该 定义 直接 与 程序 5.1 中 的 C 递 归 函 数 对 应 。 


程序 5.1 阶乘 函数 (递归 实现 ) 


这 个 递 归 函数 使 用 标准 的 递归 定义 计算 函数 N1。 当 以 足够 小 且 非 负 的 N 调 用 并 且 N! 可 以 表 
示 为 int 类 型 值 时 ， 它 返回 正确 值 。 
int factorial(int N) 
{ 
if (N == 0) return 1; 
return N*factorial (N-1); 


} 





程序 5.1 等 价 于 一 个 简单 的 循环 。 例 如 ， 以 下 的 for 循 环 实现 了 相同 的 计算 ; 

for (t=1,i= 1; i <= Ni i++) t *= 1i; 

正如 将 要 看 到 的 ， 总 是 可 能 把 递归 程序 转换 成 完成 同样 计算 的 非 递 归程 序 。 反 之 ， 我 们 
可 以 使 用 递归 而 不 使 用 循环 来 表示 任何 涉及 循环 的 计算 。 

我 们 使 用 递归 是 因为 递归 可 以 使 我 们 用 紧凑 的 形式 表达 复杂 的 算法 ， 且 不 笨 竹 效率 。 例 
如 ， 阶 乘 函 数 的 递归 实现 避免 了 使 用 局 部 变量 。 递 好 实现 的 开销 产生 于 程序 设计 系统 中 的 机 
制 ， 这 种 机 制 支持 函数 调用 ， 而 函数 调用 使 用 的 是 内 置 下 推 栈 的 等 价 物 。 大 多 数 现代 程序 设 
计 系 统 为 了 这 一 任务 都 精心 设计 了 工程 化 的 机 制 。 除 了 这 个 优势 ， 我 们 还 会 看 到 ， 很 容易 编 
写 一 个 简单 无 效 的 递归 函数 ， 并 且 我 们 需要 费 尽 心机 去 避免 难以 驾驭 的 实现 。 

程序 5.1 说 明了 一 个 递归 程序 的 基本 特征 ， 它 调用 自身 (参数 的 值 更 小 ) ， 具 有 终止 条 件 ， 
可 以 直接 计算 其 结果 。 我 们 可 以 使 用 数学 归纳 法 来 确信 这 一 程序 的 工作 过 程 ; 

* 计算 0! (归纳 基础 )。 

“假设 当 < N (归纳 假设 ) 时 它 计 算出 后 ， 在 这 一 假设 下 它 计算 Ni。 

这 种 推理 过 程 ， 为 我 们 开发 解决 复杂 问题 的 算法 提供 了 一 条 便捷 的 途径 。 

在 像 C 这 样 的 程序 语言 中 ， 很 少 有 对 我 们 所 写 程序 的 种 类 限制 ,但 是 我 们 仍 努 力 限制 自己 
使 用 上 面 所 列 出 的 包括 正确 归纳 证 明 的 递归 函数 。 昌 然 我 们 在 本 书 中 并 不 考虑 形式 化 的 正确 性 
证 明 方法 ， 我 们 还 是 很 喜欢 把 复杂 的 程序 组 合 起 来 去 处 理 较为 困难 的 任务 ， 而 且 我 们 也 需要 保 
证 这 些 任务 的 求解 是 正确 的 。 诸 如 递 妇 函数 这 样 的 机 制 能 够 为 我 们 提供 这 样 的 保证 ， 同 时 为 我 
们 提供 紧凑 的 实现 。 就 实际 来 说 ， 与 数学 归纳 法 的 联系 让 我 们 





知道 ， 我 们 可 以 保证 ， 递 归 函 数 满足 以 下 两 个 基本 属性 ， Pet10) 
。 它们 必须 明确 地 解决 归纳 基础 。 puzzle(5) 
* 每 一 次 递归 调用 ， 必 须 包 括 更 小 的 参数 值 。 Poze 
这 些 要 点 都 是 含糊 不 清 的 一 一 它 是 说 对 于 我 们 所 写 的 每 一 个 弟 puzzle (4) 
归 函 数 ， 都 必须 有 一 个 有 效 的 归纳 证 明 。 不 过 这 些 要 点 在 我 们 Puzo ) 
开发 实现 的 时 候 仍 能 提供 有 用 的 指导 。 


程序 5.2 是 一 个 有 趣 的 例子 ， 它 说 明了 对 归纳 参数 的 需求 。 图 5-1 递归 调用 链 的 例子 
这 是 一 个 递归 函数 ， 它 违反 了 这 样 的 原则 ， 每 一 个 次 递归 调用 注 , 岩 认 的 函数 调用 序列 景 终 停止 ， 
必须 包括 更 小 的 参数 值 ， 因 此 我 们 不 能 用 数学 归纳 法 来 理解 它 。 外 我 们 不 能 证 明 程序 5.2 的 递 
实际 上 ， 对 于 每 个 N 值 ， 如 果 N 的 大 小 界限 不 确定 ， 我 们 就 不 。 证 过 才 江 有 办 一 此 多 娄 拓 做 人 
能 确定 这 个 计算 是 否 会 终止 。 对 于 能 表示 为 int 的 小 整数 ， 我 用 更 小 的 参数 进行 自我 调用 的 
们 能 够 检查 程序 是 否 终 止 ( 见 图 5-1 与 练习 5.4)， 但 对 于 大 整数 递归 程序 。 
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(比如 64 位 的 字 )， 我 们 无 法 知道 这 个 程序 是 否 会 进入 无 限 循 环 中 。 
，， 程序 5.2 有 问题 的 递归 程序 、 

如 果 参 数 N 是 奇数 ， 这 个 琢 数 用 3N+1 作 为 参数 调用 本 身 ， 加 果 N 是 个 数 ， 函数 用 My2 作 为 
参数 调用 本 身 。 我 们 不 能 使 用 归纳 法 证 明 该 程序 能 终止 ， 因 为 并 不 是 每 一 次 递归 调用 都 使 用 
一 个 比 给 定 参数 更 小 的 参数 。 


int puzzle(int N) 





if (N == 1) return 1; 
if (N % 2 == 0) 

return puzzle(N/2) ; 
else return puzzle(3*N+1); 


} 


程序 5.3 是 欧 几 里 得 算法 (Euclid’s algorithm) 的 紧凑 的 实现 ， 用 于 找 出 两 个 整数 的 最 大 
公 因 子 。 它 是 基于 这 样 一 种 观察 ， 两 个 整数 x 和 y 且 x > y 的 最 大 公 因 子 等 同 于 y 与 x mod yx 除 
以 y 的 余数 ) 的 最 大 公 因 子 。 数 1 整除 x 和 y 当 和 且 仅 当 1 整 除 y 和 x mod y， 因 为 x 等 同 于 x mod y 加 上 
一 个 y 的 倍数 。 图 5-2 是 该 程序 调用 的 示例 。 对 欧 几 里 得 算法 而 言 ， 递 归 的 深度 由 参数 的 算术 
性 质 决 定 (深度 已 知 为 参数 的 对 数 )。 


作为 有 2000 年 历史 的 最 古老 的 著名 算法 之 一 ， 这 是 一 个 找 出 两 个 整数 的 最 大 公 因 子 的 递 
归 方 法 。 
int gca(int m, int n) 
{ 


if (n == 0) return m; 
return gcd(n, m % n); 


gcd(314159, 271828) 
gcd(271828, 42331) 
gcd(42331, 17842) 
gcd(17842, 6647) 
gcd(6647, 4458) 


gcd(4458, 2099) 
gcd(2099, 350) 
gcd(350, 349) 
gcd(349, 1) 
gcd(1, 0) 





图 5-2 欧 几 里 得 算法 的 例子 
注 : 这 一 此 套 的 范 数 调用 序列 说 明了 欧 几 里 得 算法 的 操作 过 程 ， 它 表明 了 314159 与 271828 是 互 素 的 。 


程序 5.4 是 一 个 带 有 多 重 递 归 调 用 的 例子 。 它 是 另 一 个 表达 式 求 值 程序 ， 实 质 上 进行 着 与 
程序 4.2 相 同 的 计算 ,但 它 是 对 前 级 而 不 是 对 后 级 ) 表达 式 求 值 ， 并 且 用 递归 代替 显 式 下 推 
栈 。 在 本 章 中， 我们 将 看 到 递归 程序 的 许多 其 他 例子 ， 以 及 使 用 下 推 栈 的 等 价 程序 。 我 们 将 
就 几 对 这 样 的 程序 详细 考察 其 特定 的 关系 。 
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程序 5.4， 前缀 表达 式 求 什 的 递归 程序 

为 了 对 前 缀 表达 式 求 值 ， 我 们 将 一 个 数字 的 ACSII 码 转换 为 二 进 制 值 (在 最 后 的 whi1e 特 
环 中 ) ， 或 者 对 两 个 操作 数 执行 表达 式 中 第 一 个 字符 指示 的 操作 ， 并 递归 求 表达 式 的 值 。 这 个 
函数 是 递归 的 ， 但 它 使 用 包含 该 表达 式 以 及 指向 表达 式 的 当前 字符 的 索引 的 全 局 数组 。 该 指 


针 经 过 每 一 个 求 值 的 子 表达 式 向 前 移动 。 
char *a; int i; 
int eval() 
{ int x = 0; 
while (a[i] == ? ’) i++; 
if (a[i] == ’+’) 
{ it+; return eval() + eval(); } 
if (a[i] == ’*’) 
{ i++; return eval() * eval(); } 


while ((a[i] >= ’0’) && (a[i] <= ’9’)) 


x = 10*x.+ (a[i++]-’0’); 
return XxX; 


} 


图 5-3 显 示 出 程序 5.4 在 示例 前 缀 表达 式 中 
的 操作 。 该 多 重 递 归 调 用 掩饰 了 一 系列 的 复杂 
计算 。 像 多 数 递归 程序 一 样 ， 该 程序 可 以 从 归 
纳 角度 很 好 地 理解 : 假设 它 对 于 简单 表达 式 能 
正确 工作 ， 我 们 就 可 以 确信 它 对 于 复杂 表达 式 
也 能 很 好 地 工作 。 该 程序 是 一 个 递归 下 降 语 法 
分 析 程 序 的 简单 例子 ， 我 们 可 以 使 用 同样 的 过 
程 将 C 程 序 转换 成 机 器 码 。 

写 出 程序 5.4 正 确 计算 表达 式 的 值 的 精确 归 
纳 证 明 比 用 我 们 一 直 讨 论 的 用 整数 作 参 数 的 函 
数 证 明 更 具 挑战 性 ， 我 们 在 本 书 中 也 将 继续 磁 
到 比 这 一 程序 更 复杂 的 递归 程序 与 数据 结构 。 
因此 ， 为 我 们 所 写 的 每 一 个 递归 程序 提供 完整 
的 正确 的 归纳 证 明 ， 并 不 是 我 们 所 要 追求 的 理 
想 目标 。 在 这 种 情况 下 ， 程 序 “ 懂 得 ”如 何 把 
操作 数 从 对 应 的 操作 符 中 分 离 出 来 的 能 力 年 看 
之 下 显得 不 可 思议 〈 或 许 因为 在 顶层 我 们 不 能 
直接 看 到 如 何 进 行 这 个 分 离 ) ， 但 实际 上 这 是 


eval()*+7**46+895 
eval() +7**46+89 
eval() 7 
eval() **46+89 
eval() *46 
eval() 4 
eval() 6 
return 24 = 4*6 
eval()+89 
eval() 8 
eval() 9 
return 17=8+9 
return 408 = 24*17 
return 415 = 7+408 
eval() 5 
return 2075 = 415*5 





图 5-3 ”前缀 表达 式 求 值 的 例子 


注 : 这 个 谋 套 的 函数 调用 序列 ， 说 明了 递归 的 前 级 表达 
式 求 值 算法 在 示例 表达 式 上 的 操作 过 程 。 为 简化 起 
见 ， 这 里 显示 的 是 表达 式 参 数 。 算 法 本 身 并 不 显 式 
地 决定 其 参数 事 的 范 园 ， 而 是 从 字符 事 的 开头 根据 
需要 获取 。 


简单 明了 的 计算 〈 因 为 要 处 理 的 每 一 个 函数 调用 是 由 表达 式 中 的 第 一 个 字符 明确 决定 的 )。 
原则 上 ， 我 们 可 以 用 等 价 的 递归 程序 来 代替 for 循 环 。 与 for 循 环 相 比 ， 递 归程 序 常 常 是 
表达 计算 的 更 为 自然 的 方式 ， 所 以 要 充分 利用 那些 支持 递归 的 程序 设计 系统 提供 的 机 制 。 然 
而 ， 我 们 必须 记 住 有 一 个 潜在 的 开销 。 当 实现 一 个 递归 程序 时 ， 我 们 进行 嵌 套 函数 调用 ， 直 
到 达到 某 一 点 ， 在 这 一 点 上 我 们 不 再 进行 递归 调用 ， 并 且 返 回 ， 从 图 5-1 至 图 $-3 考 察 的 例子 能 
明显 地 看 到 这 一 点 。 在 大 多 数 编程 环境 中 ， 使 用 等 价 的 内 置 下 推 栈 来 实现 这 样 的 嵌 套 函数 调 
用 。 我 们 将 通过 这 一 章 来 考察 这 种 实现 的 本 质 。 递 归 的 深度 (depth of the recursion) 就 是 在 
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计算 过 程 中 嵌 套 函数 调用 的 最 大 程度 。 一 般 来 说 ， 深 度 取 决 于 输入 。 例 如 ， 在 图 5-2 与 图 5-3 所 
描述 的 例子 中 ， 递 归 的 深度 分 别 是 9 和 4。 在 使 用 递归 程序 时 ， 我 们 需要 考虑 编程 环境 必须 能 
够 保持 一 个 其 大 小 与 递归 深度 成 比例 的 下 推 栈 。 对 于 大 型 问题 ， 这 个 栈 所 需要 的 空间 可 能 妨 
碍 我 们 使 用 递归 的 方法 。 

由 带 有 指针 的 节点 所 构建 的 这 种 数据 结构 本 质 上 是 递归 的 。 例 如 ， 我 们 在 第 3 章 中 关于 链 
表 的 定义 就 是 递归 的 (定义 3.3)。 因 此 ， 递 归 的 程序 提供 了 操纵 这 些 数据 结构 的 许多 常用 函 
数 的 自然 实现 。 程 序 5.5 包 含 了 4 个 例子 。 我 们 贯穿 在 本 书 中 常常 使 用 这 样 的 实现 ， 主 要 是 因 
为 它们 比 对 应 的 非 递归 程序 更 容易 理解 。 然 而 ， 当 处 理 大 型 链表 时 ， 我 们 必须 对 使 用 的 诸如 
程序 5.5 这 样 的 程序 加 以 注意 ， 因 为 那些 函数 的 递归 深度 与 链表 的 长 度 成 正比 ， 因 此 ， 所 要 求 
的 递归 栈 空 间 可 能 无 法 满足 。 


”程序 5.5 链表 递归 阔 数 示例 


这 些 用 于 简单 链表 处 理 任务 的 递归 函数 容易 卖 达 ， 但 可 能 不 能 用 于 大 型 链表 ， 这 是 因为 
递归 的 深度 可 能 与 链表 的 长 度 成 正比 。 

第 一 个 函数 count 计 算 链表 中 节点 的 个 数 。 第 二 个 函数 traverse 对 链表 中 的 每 个 节点 从 头 
至 尾 调用 函数 visit。 这 两 个 函数 也 都 很 容易 用 for 循 环 或 whi1e 循 环 来 实现 。 第 三 个 函数 
traverseR 并 没有 一 个 简单 的 迭代 可 与 之 对 应 。 它 对 链表 中 的 每 个 节点 调用 函数 visit， 但 以 
相反 的 顺序 进行 | 

第 四 个 函数 delete 从 链表 中 删除 给 定数 据 项 的 节点 ， 使 链表 结构 发 生变 化 。 它 返回 一 个 
指向 结果 链表 (可 能 已 经 改变 ) 的 指针 ， 即 返回 的 链接 是 x， 在 x->item = vy 时 ， 所 返回 的 链 
接 是 x->next (此 时 递归 终止 )。 


int count (link x) 
{ 
if (x == NULL) return 0; 
return 1 + count(x->next); 
} 
void traverse(link h, void (*visit) (link)) 
{ 
if (h == NULL) return; 
(x*visit) (h); 
traverse(h->next, visit); 
.3} 
void traverseR(link h, void (*visit) (link)) 
{ 
if (h == NULL) return; 
traverseR(h->next, visit); 
(*visit) (h); 
} 
link delete(link x, Item v) 
{ 
if (x == NULL) return NULL; 
if (eq(x->item, v)) 
{ link t = x~>next; free(x); return t; } 
x->next = delete(x->next, Vv); 
return X; 


} 
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当 函 数 的 最 后 行为 是 递归 调用 的 时 候 ， 一 些 编程 环境 会 自动 检测 与 消除 尾 递 归 ， 因 为 在 
这 种 情况 下 并 不 需要 严格 增加 递归 的 深度 。 这 种 改进 将 高 效 地 把 程序 5.5 中 的 计数 (count)、 
遍历 (traversal) 和 删除 (delete) 函数 转换 为 循环 〈loop)， 但 它 并 不 能 应 用 到 顺序 相反 的 遍 
历 函 数 中 。 

在 5.2 节 和 5.3 节 中 ， 我 们 分 析 表 示 基 本 计算 范 型 的 两 类 递归 算法 。 然 后 ， 在 5.4 节 至 5.7 节 ， 
我 们 分 析 作 为 所 讨论 的 大 部 分 算法 的 基础 的 递归 数据 结构 。 
练习 
>5.1 编写 一 个 递归 程序 来 计算 lg(N!)。 
5.2 修改 程序 5.1 来 计算 N! mod M， 以 使 溢出 不 再 是 问题 。 尝 试 对 M = 997, N = 10?, N = 104， 
N = 105 和 N= 10 运 行 你 的 程序 ， 并 由 此 理解 你 的 程序 设计 系统 如 何 处 理 深层 修 套 的 递归 调用 。 
>5.3 对 于 每 一 个 1~9 之 间 的 整数 ， 当 调用 程序 5.2 时 ， 给 出 运行 结果 的 参数 值 序列 。 
。5.4 找 出 程序 5.2 在 N < 10s 时 所 导致 的 递归 调用 的 最 大 数值 。 
>5.5 给 出 欧 几 里 得 算法 的 非 递 归 实 现 。 
>5.6 输入 89 和 55， 运 行 欧 几 里 得 算法 ， 根 据 其 结果 给 出 对 应 于 图 5-2 的 图 。 
25.7 当 输 入 值 是 两 个 连续 的 斐 波 纳 契 数 (所 和 Fy ,1) 时 ， 给 出 欧 几 里 得 算法 的 递归 深度 。 
>5.8 当 输 入 为 + * * 12 12 12 144 时 ， 给 出 递归 前 缀 表达 式 求 值 结果 与 图 5-2 相 对 应 的 图 。 
5.9 编写 一 个 后 组 表达 式 求 值 的 递归 程序 。 
5.10 编写 一 个 中 组 表达 式 求 值 的 递归 程序 。 可 以 假定 操作 数 总 被 置 于 括号 中 。 
25.11 编写 一 个 把 中 缀 表达 式 转换 为 后 缀 表达 式 的 递归 程序 。 
25.12 编写 一 个 把 后 缀 表达 式 转换 为 中 组 表达 式 的 递归 程序 。 
5.13 编写 一 个 求解 Josephus 问 题 的 递归 程序 ( 见 3.3 节 )。 
5.14 编写 一 个 删除 链表 中 最 后 节点 的 递归 程序 。 
05.15 编写 一 个 逆转 链表 中 节点 顺序 的 递归 程序 ( 见 程 序 3.7)。 提 示 : 使 用 一 个 全 局 变量 。 


5.2 分 治 ; 


我 们 在 书 中 所 考虑 的 许多 递归 程序 都 使 用 两 个 递归 调用 ， 每 一 个 递归 调用 约 处 理 输入 一 
半 的 信息 。 这 种 递归 模式 也 许 就 是 算法 设计 中 最 著名 的 分 治 法 范 型 的 最 重要 的 例子 ， 这 个 范 
型 是 我 们 很 多 重要 算法 的 基础 。 

作为 一 个 例子 ， 我 们 考察 在 存放 于 数组 a[0] ，…，a[N-1] 的 N 个 项 中 找 出 最 大 一 项 的 任 
务 。 我 们 只 要 遍历 数组 一 遍 ， 就 可 以 容易 地 完成 这 个 任务 。 

for (t = a[lo], i = 1; i < N; i++) 

if (a[i] > t) t = al[i]; 

在 程序 5.6 中 给 出 的 递归 分 治 法 也 是 解决 同一 问题 的 另 一 简单 〈 但 完全 不 同 的 ) 算法 ， 我 
们 使 用 这 个 问题 来 阐述 分 治 法 的 概念 。 

分 治 法 是 我 们 最 常用 的 方法 ， 是 因为 相对 于 那些 使 用 简单 迭代 的 算法 ， 分 治 法 能 够 提供 
更 加 快速 的 算法 (我 们 将 在 本 节 的 末尾 集中 讨论 几 个 例子 )， 同 时 分 治 法 作为 一 种 理解 基本 计 
算 本 质 的 途径 ， 也 值得 我 们 深入 考察 。 

图 5-4 显 示 了 对 于 一 个 示例 数组 调用 程序 5.6 时 所 产生 的 递归 调用 的 结果 。 这 个 基本 结构 看 
似 复 杂 ， 但 是 一 般 不 需要 担心 ， 因 为 我 们 依靠 归纳 法 证 明 来 表明 这 个 程序 可 以 工作 ， 并 且 使 
用 递归 关系 来 分 析 这 个 程序 的 性 能 。 


Y max(0, 10) 
Y max(0, 5) 
T max(0, 2) 
T max(0, 1) 
T max(0, 0) 
I max(1, 1) 
N max(2, 2) 
Y max(3, 5) 
Y max(3, 4) 
Y max(3, 3) 
E max(4, 4) 
X max(5, 5) 
P max(6, 10) 
P max(6, 8) 
M max(6, 7) 
A max(6, 6) 
M max(7, 7) 
P max(8, 8) 
L max(9, 10) 
L max(9, 9) 
E max(10, 10) 





图 5-4 求 最 大 元 素 的 递归 算法 
注 : 这 个 函数 调用 的 序列 说 明了 用 递归 算法 计算 最 大 元 素 的 动态 过 程 。 
这 个 函数 将 数组 a[1],… ,a[r] 分 成 a[1],… ,a[m] 和 a[m+1] ,… ,atr] 两 部 分 ， 分 别 求 出 每 
一 部 分 的 最 大 元 素 (递归 地 ) ， 并 返回 较 大 的 那 一 个 作为 整个 数组 的 最 大 元 素 。 它 假设 Item 是 
定义 了 > 的 一 级 数据 类 型 。 如 果 数 组 大 小 是 偶数 ， 则 两 部 分 大 小 相等 ， 如 果 是 奇数 ， 第 一 部 分 
比 第 二 部 分 的 大 小 大 1。 
Item max(Item a[], int 1, int r) 
{ Item u, v; int m = (1+r)/2; 
if (1 == r) return al[i]; 
n= max(a, 1, m); 
V = max(a, mt+1, r); 


if (u > V) return u; else return vy; 


} 


通常 来 说 ， 代 码 本 身 能 够 通过 归纳 法 给 出 进行 所 需 计算 的 一 种 证 明 

。 它 明确 直接 地 求解 大 小 为 1 的 数组 中 的 最 大 元 素 。 

* 对 于 N > 1 ， 它 把 一 个 数组 分 成 两 个 大 小 比 N 小 的 数组 ， 使 用 归纳 法 假设 找到 两 部 分 的 各 

自 最 大 元 素 ， 然 后 返回 两 个 值 中 较 大 的 一 个 ， 这 个 值 必定 是 整个 数组 中 的 最 大 值 。 

进一步 来 说 ， 我 们 可 以 使 用 程序 的 递归 结构 来 理解 其 性 能 特征 。 | 

性 质 5.1 ”把 一 个 大 小 为 W 的 问题 分 解 为 两 个 独立 的 〈 非 空 ) 部 分 的 递归 函数 ， 它 递归 调 
用 自身 进行 求解 的 次 数 少 于 N 次 。 

如 果 所 分 的 两 部 分 的 大 小 分 别 是 故 NN 一 上 ， 那 么 我 们 使 用 的 递归 国 数 调用 的 总 数 为 ， 
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T=Ti+Tyx+l, N>1, BT=0 

通过 归纳 法 直接 可 得 Tw = N-1。 如 大 小 加 起 来 的 值 小 于 N， 那 么 调用 次 数 小 于 N- 1 的 证 明 
可 由 同一 归纳 参数 直接 而 得 。 我 们 可 以 在 一 般 的 条 件 下 证 明 类 似 的 结果 ( 见 练习 5.20)。 ” 国 

程序 5.6 是 许多 分 治 算法 的 典型 代表 ， 它 们 具有 完全 相同 的 递归 结构 ， 但 是 其 他 的 例子 可 
能 在 两 个 基本 的 方面 有 所 不 同 。 首 先 ， 程序 5.6 在 每 一 次 函数 调用 上 工作 量 为 常量 ， 所 以 它 的 
总 运行 时 间 是 线性 的 。 其 他 的 分 治 算法 可 能 在 每 一 次 函数 调用 上 进行 更 多 的 工作 ， 就 如 我 们 
` 将 看 到 的 ， 所 以 决定 总 的 运行 时 间 需 要 更 复杂 的 分 析 。 这 种 算法 的 运行 时 间 取 决 于 把 问题 分 
解 为 部 分 的 精确 方式 。 第 二 ， 程 序 5.6 是 分 
治 算法 的 代表 ， 在 这 种 算法 中 部 分 总 和 构成 
总 体 。 其 他 的 分 治 算法 可 以 分 解 成 小 于 整个 
问题 的 更 小 部 分 ， 或 者 分 解 为 总 体 大 于 整个 
问题 的 重 又 部分。 这 些 算法 仍然 是 正确 的 弟 
归 算 法 ， 因 为 每 一 个 部 分 都 比 整个 问题 要 
小 ， 但 分 析 这 些 算法 比分 析 程 序 5.6 要 困难 
得 多 。 我 们 将 会 在 遇 到 这 些 算法 时 详细 地 
分 析 它 们 。 

例如 ， 我 们 在 2.6 节 中 讨论 的 二 分 搜索 算 
法 就 是 一 个 分 治 算法 ， 该 算法 把 一 个 问题 分 
为 两 半 ， 并 且 只 在 其 中 的 一 半 上 工作 。 我 们 
将 在 第 12 章 考察 二 分 算法 的 一 种 递归 实现 。 

图 5-5 表 明了 由 编程 环境 所 保持 的 内 部 
栈 的 内 容 来 支持 图 5-4 中 的 计算 。 图 5-5 所 示 图 5-5 内 部 栈 动态 过 程 示例 
的 模型 是 理想 化 的 ， 但 它 有 助 于 我 们 深入 理 注 : 该 序列 是 在 图 5-4 的 示例 计算 中 内 部 栈 内 容 的 一 个 理想 
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解 分 治 法 的 计算 结构 。 如 果 一 个 程序 有 两 个 表示 。 我 们 从 栈 中 整个 子 数组 的 左右 索引 开始 。 每 一 
递归 调用 ， 实 际 的 内 部 栈 包含 了 对 应 第 一 个 
函数 调用 的 一 个 入 口 ， 此 时 该 函数 正在 执行 


行 描述 了 弹出 两 个 索引 的 结 来 ， 如 果 二 者 不 相等 ， 东 
压 入 四 个 索引 ， 它 们 表明 当 弹 出 的 子 数组 被 分 为 两 部 
分 后 ， 这 些 索 引 就 是 每 一 部 分 的 左右 边界 。 在 实际 中 ， 


该 系统 把 栈 的 返回 地 址 和 局 部 变量 保留 在 栈 中 ， 而 不 
保留 左右 边界 ， 但 这 种 保留 返回 地 址 和 局 部 变量 的 模 
型 足以 描述 计算 。 


( 它 包含 参数 值 、 局 部 变量 以 及 返回 地 址 )， 
接着 还 有 对 应 第 二 个 函数 调用 的 一 个 类 似 入 
口 ， 此 时 该 函数 正在 执行 。 图 5-5 描 述 的 两 
个 递归 调用 的 交替 过 程 把 两 个 人口 一 次 放 到 栈 中 ， 使 得 要 被 执行 的 所 有 子 任务 显 式 地 在 栈 中 。 
这 种 安排 明确 地 描述 了 计算 ， 并 且 为 更 一 般 的 计算 模式 做 好 铺垫 ， 就 如 我 们 在 5.6 节 和 5.8 节 考 
察 的 那些 模式 一 样 。 

图 5-6 描 述 了 找 出 最 大 值 的 分 治 法 的 计算 结构 。 它 是 一 个 递归 的 结构 :顶部 的 节点 包含 了 输 
入 数组 的 大 小 ， 左 子 数组 的 结构 画 在 了 左边 ， 右 子 数组 的 结构 画 在 了 右边 。 我 们 将 形式 地 定义 
并 讨论 5.4 节 和 5.5 节 中 的 树 结构 。 这些 结构 对 于 理解 任何 包括 了 风 套 函数 调用 (特别 是 递归 调用 ) 
的 程序 都 很 有 用 。 在 图 5-6 中 显示 的 是 同一 棵 树 ， 但 在 树 的 每 个 节点 上 标 有 所 对 应 的 函数 调用 的 
返回 值 。 在 5.7 节 ， 我 们 将 考察 构建 一 个 显 式 的 链 式 结构 的 过 程 ， 该 结构 表示 的 树 与 此 类 似 。 

要 是 没有 古老 的 汉 诺 塔 问题 ， 也 就 没有 关于 递归 的 讨论 。 我 们 有 三 个 柱子 和 适合 这 些 柱 
子 的 N 个 盘子 。 这 些 盘 子 大 小 不 同 ， 一 开始 都 是 安排 在 一 个 柱子 上 ， 上 顺序 为 底下 的 盘子 最 大 顶 
端的 盘子 最 小 。 任 务 就 是 要 移动 这 些 盘 子 到 右边 的 一 个 位 置 〈 柱 子 ) 上 ， 遵 循 以 下 的 规则 : 
(i) 一 次 只 能 移动 一 个 盘子 ， (ii) 没有 盘子 可 以 放置 到 比 其 小 的 盘子 上 面 。 有 一 个 传说 ， 当 
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一 群 僧侣 在 寺庙 里 面 ， 用 40 个 金 盘子 和 三 个 钻石 柱子 完成 这 个 项 时 ， 世 界 末日 就 到 了 。 





图 5-6 求 最 大 值 算法 的 递归 结构 
注 ， 分 治 法 将 一 个 大 小 为 11 的 问题 分 成 大 小 为 6 和 5 的 问题 ， 再 将 大 小 为 6 的 问题 分 成 两 个 大 小 为 3 的 问题 ， 如 此 
分 解 下 去 ， 直 到 分 成 大 小 为 1 的 问题 (最 上 面 的 图 ) 。 图 中 的 每 个 固 节 点 表示 对 递归 函数 的 一 次 调用 ， 调 用 
的 节点 是 其 下 连接 的 节点 (方形 是 递归 终止 的 调用 ) 。 中 间 的 图 显示 了 对 文件 分 裂 产生 影响 的 中 分 文件 的 索 
引 值 。 最 下 面 的 图 显示 了 返回 值 。 
程序 5.7 给 出 了 关于 这 个 问题 一 个 递归 解法 ， 它 详细 说 明了 在 每 一 步 中 移动 哪个 盘子 ， 向 
哪个 方向 (+ 意味 着 把 一 个 盘子 移 到 右边 柱子 ， 车 在 最 右边 柱子 上 ， 就 转 到 最 左边 的 柱子 ， 一 
也 就 是 把 一 个 盘子 移 到 左边 的 柱子 ， 若 在 最 右边 的 柱子 上 ， 就 转 到 最 左边 的 柱子 上 )。 这 样 的 
递归 是 基于 以 下 的 想法 : 要 把 一 个 柱子 上 的 N 个 盘子 移 到 右边 ， 我 们 首先 把 柱子 上 最 上 面 的 
N 一 1 个 盘子 移 到 左边 ， 然 后 把 第 N 个 盘子 移 到 右边 ， 再 把 其 他 的 N 一 1 个 盘子 移 到 右边 (在 盘子 
N 之 上 )。 我 们 可 以 用 归纳 法 来 验证 这 种 解法 是 否 正 确 。 图 5-7 显 示 了 当 N = 5 时 的 移动 过 程 ， 
以 及 当 N = 3 对 的 递归 月 用 。 芝 本 的 模式 是 显然 的 ， 我 们 现 玫 在 详细 考察 这 种 模式 。 


“程序 5. 7 ” 汉 诺 堪 的 解 “ 


我 们 把 盘子 (递归 地 ) 移 到 右边 的 方案 是 ， 将 除了 最 下 面 的 盘子 之 外 的 所 有 盘子 移 到 左 
边 ， 然 后 将 最 下 面 的 盘子 移 到 右边 ， 然 后 (递归 地 ) 再 将 其 他 盘子 移 回 到 最 下 面 的 盘子 上 面 。 


void hanoi(int N, int d) 
{ 
“if (N == 0) return; 
hanoi (N-1, -d); 
shift (N, d); 
hanoi(N-1, -d); 
} 


首先 ， 这 个 解法 的 递归 结构 能 够 立即 告诉 我 们 这 种 解法 所 需 的 移动 数目 。 
性 质 5.2 汉 诺 塔 问题 的 递归 分 治 算 法 产生 一 个 2 一 1 步 移动 的 解法 。 
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| | _ | 由 
| -| 
lL 2 | 
二 ”| -二 -~ 
业 ”|L- 生 _L 
二 -上 
| ”二 _|L 
"十 | i 
1 | 


hanoi(1, +1) 
hanoi(0, -1) 


- - shift(1, +1) 
:上 _L 44. 2 入 = L hanoi(0, -1) 
shift (2, -1) 
hanoi(1, +1) 
7. | 全 | = 二 hanoi(0, -1) 
shift(1, +1) 
hanoi(0, -1) 
_ 吉 _ | = ”| is. 土 ahift(3，+1) 
hanoi(2, ~1) 
hanoi(1, +1) 
-ll 
Shift(1, +1) 
| hanoi(0, -1) 


_2 | 二 | shift(2, -1) 


hanoi(1, +1) 
hanoi(0, -1) 


+ shift{1i, +1) 
! | J | hanoi (0 -1) 
图 5-7 汉 诺 塔 


注 : 该 图 描述 了 有 五 个 盘子 的 汉 诺 塔 问 题 的 解法 。 首 先 把 柱子 ( 左 列 ) 上 最 上 面 4 个 盘子 移 到 左边 的 位 置 ， 然 后 
将 第 5 个 瘟 子 移 到 右边 的 柱子 ， 然 后 把 左边 位 置 上 的 4 个 盘子 移 到 右边 〈 右 列 ) 。 图 右 半 部 分 的 函数 调用 序列 
构成 了 三 个 盘子 的 计算 序列 。 计 算 的 移动 序列 是 +1 一 2+1+3+1 一 2+1， 该 序列 在 解决 方案 中 出 现 了 四 次 ( 例 
如 ， 前 七 次 移动 ) 。 


通常 来 说 ， 若 移动 的 数目 能 满足 一 个 递归 方程 ， 就 可 以 直接 得 出 这 个 性 质 。 在 这 种 情况 
下 ， 盘 子 移动 数 满足 的 递归 方程 与 公式 2.5 相 似 ， 
Tv=27 1+1l, N> 2, T=1 
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我 们 可 以 用 归纳 法 直接 验证 所 述 结果 ; TCD = 2 -1 = 1， 并 且 对 于 k < N, 如 果 7T(k) = 2 一 1， 
那么 T(N) = 2(2* ?一 1)+1=2* 一 1。 

如 果 僧 但 们 每 秒 移动 一 个 盘子 ,假设 不 犯 一 个 错 
误 ， 至 少 也 要 花 34800 年 才能 完成 ( 见 图 2-1)。 世 界 末 
日 看 起 来 要 远 得 多 ， 因 为 这 群 僧侣 无 法 想象 他 们 使 用 
程序 5.7 的 好 处 ， 也 无 法 迅速 算出 下 一 步 该 移动 到 哪 一 
个 。 我 们 现在 考察 一 种 方法 的 分 析 ， 这 种 方法 导致 了 
一 种 很 容易 做 出 正确 决定 的 简单 方法 〈 非 递归 )。 它 与 
大 量 重要 的 实际 算法 相关 ， 我 们 当然 不 想 让 这 些 僧侣 
知道 这 个 秘密 。 

要 理解 汉 诺 塔 的 解法 ， 考 虑 这 样 一 个 简单 的 任务 : 
在 一 把 尺子 上 画 出 一 系列 的 刻度 线 。 尺 子 上 的 每 一 英 
寸 在 1/2 英 寸 处 有 一 个 刻度 线 ， 在 每 1/4 英 寸 处 刻度 线 
短 一 些 , 在 每 1/8 英 寸 处 的 刻度 线 再 短 一 些 ， 如 此 继续 。 


rule(0, 8, 3) 


我 们 的 任务 就 是 编写 一 个 程序 ， 以 任意 给 定 的 细 分 程 rule(0，4， 2) 
度 画 出 这 些 刻 度 线 ， 假 设 已 有 一 个 过 程 nark(x，h)， To Do) 


它 的 作用 就 是 在 位 置 x 处 画 一 条 h 高 度 的 线 。 

如 果 需 要 的 细 分 程度 是 1/2" 英寸 ， 我 们 重 定 尺度 ， 
以 使 我 们 的 任务 可 以 在 0 到 >" 之 间 的 每 个 点 上 放 一 条 线 ， 
不 包括 端点 。 因 此 ， 中 间 的 刻度 线 应 为 n 个 单位 的 高 度 ， 
在 左 半 部 分 和 右 半 部 分 的 中 间 的 刻度 线 应 该 是 zi 一 1 个 单 
位 的 高 度 ， 以 此 类 推 。 程 序 5.8 是 完成 此 目标 的 直接 分 
治 算法 ， 图 5-8 显 示 了 较 小 示例 的 操作 过 程 。 就 递归 而 
言 , 方法 之 后 的 思想 如 下 。 要 在 任 一 间隔 内 画 线 ， 我 们 
首先 就 把 该 间隔 分 成 相等 的 两 部 分 。 然 后 ， 我 们 在 左 半 
部 分 画 出 短线 (递归 地 )， 在 中 间 位 置 画 出 长 线 ， 在 右 
半 部 分 画 出 短线 (递归 地 )。 就 迭代 而 言 ， 图 5-8 阐 明了 
按 从 左 到 右 的 顺序 画 刻度 线 的 方法 一 一 技巧 在 于 计算 长 


mark(1, 1) 
rule(1, 2, 0) 
mark(2, 2) 
rule(2, 4, 1) 
rule(2, 3, 0) 
mark(3, 1) 
‘rule(3, 4, 0) 
mark(4, 3) 
rule(4, 8, 2) 
rule(4, 6, 1) 
rule(4, 5, 0) 
mark(5, 1) 
rule(5, 6, 0) 
mark(6, 2) 
rule(6, 8, 1) 
rule(6, 7, 0) 
mark(7, 1) 
rule{(7, 8, 0) 





度 。 图 中 的 递归 树 有 动 于 我 们 理解 计算 过 程 :纵向 读 下 图 5-8 尺子 上 画 刻度 线 函 数 的 调用 
去 ， 可 见 对 于 每 次 递归 函数 调用 ， 刻 度 线 的 长 度 减 1: 。 注 ， 该 函数 调用 序列 是 为 长 度 为 8 的 尺子 部 刻 
横向 读 过 去 ， 则 得 到 按 它们 被 画 出 顺序 的 刻度 线 ， 因 为 度 的 计算 序列 ， 画 线 长 度 序列 为 1，2，1 ， 
对 于 任何 给 定 的 节点 ， 我 们 首先 画 出 关联 左边 函数 调用 3，1 2 和 1。 

的 刻度 线 ， 然 后 画 出 与 节点 有 关 的 刻度 线 ， 最 后 画 出 关联 右边 函数 调用 的 刻度 线 。 

我 们 马上 看 到 这 些 长 度 序列 与 在 汉 诺 塔 问题 中 移动 盘子 的 序列 完全 相同 。 实 际 上 ， 关 于 
它们 是 相同 的 简单 证 明 就 是 证 明 它们 的 递归 程序 相同 。 换 种 方式 ， 那 些 僧 侣 可 以 使 用 尺子 上 
的 刻度 线 来 决定 移动 哪 一 个 盘子 。 

此 外 ， 程 序 5.7 中 的 汉 诺 塔 的 解法 与 程序 5.8 中 的 刻度 尺 画 线程 序 是 程序 5.6 示 例 的 基本 分 
治 法 模式 的 变型 。 三 者 都 通过 把 大 小 为 2" 的 问题 分 解 为 2 的 两 个 子 问 题 。 对 于 求 出 最 大 值 的 
问题 ， 我 们 有 为 输入 大 小 线性 时 间 的 解法 ， 要 划 出 一 把 尺子 的 刻度 和 解 汉 诺 塔 问题 ， 我 们 有 
输出 大 小 的 具有 线性 时 间 的 解法 。 对 于 汉 诺 塔 问题 ， 我 们 一 般 把 该 解法 的 时 间 设 想 为 指数 时 
间 ， 原 因 在 于 我 们 根据 盘子 的 数目 z 来 衡量 该 问题 的 大 小 。 
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程序 5.8， 使 用 分 治 法 在 尺子 上 画 刻 度 
要 在 尺子 上 画 刻 度 线 ， 我 们 首先 在 左 半边 画 刻 度 线 ， 然 后 在 中 间 画 一 条 最 长 的 刻度 线 ， 
最 后 在 右 半边 画 刻度 线 。 该 程序 将 应 用 /一 1 的 2 的 睾 次 方 的 属性 ,该 属性 体现 在 它 的 递归 调用 
中 ( 见 练习 5.27)。 
rule(int 1, int r, int h) 
{ int m= (1l+r)/2; 
if (h > 0) 
{ 
rule(l, m, h-1); 
mark(m, h); 
rule(m, r, h-1); 
} 
} 


使 用 递归 程序 在 尺子 上 画 线 并 不 难 ， 但 是 否 还 有 更 简 
单 的 方式 计算 第 ;条 线 的 长 度 ， 而 无 论 给 定 的 i 是 多 少 ? 图 5-9 
显示 了 提供 此 问题 另 一 种 解法 的 简单 计算 过 程 。 由 汉 诺 塔 
程序 与 尺子 程序 打印 出 的 第 ;个 数目 ， 就 是 ;的 二 进 制 表示 
中 尾 缀 为 0 的 个 数 。 我 们 可 根据 分 治 法 公式 ， 针 对 打印 "位 
数字 的 表 ， 用 归纳 法 证 明 这 个 性 质 : 打印 (n 一 1) 位 数字 
的 表 ， 每 个 前 缀 都 为 0， 然 后 打印 〈n-1) 位 数字 的 表 ， 每 
个 前 绥 都 为 1 ( 见 练习 5.25 ) 。 

对 于 汉 诺 塔 问 题 ， 与 4 位 数字 对 应 的 涵义 是 该 任务 的 一 
个 简单 算法 。 我 们 可 以 将 一 个 柱子 的 所 有 盘子 移 到 右边 ， 
方法 是 重复 以 下 的 两 步 直到 完成 ， 

。 如 果 n 是 奇数 ， 把 小 的 盘子 移 到 右边 (如果 n 是 偶数 ， 

则 移 到 左边 ) 。 

。 惟 一 合法 的 移动 不 涉及 小 盘子 。 

也 就 是 说 ， 在 移动 小 盘子 之 后 ， 其 他 两 个 柱子 保持 了 
两 个 盘子 ， 一 个 比 另 一 个 更 小 。 不 涉及 小 盘子 的 惟一 的 合 
法 移动 就 是 要 移动 一 个 较 小 的 盘子 到 一 个 较 大 的 盘子 上 
面 。 每 隔 一 次 移动 就 会 涉及 小 盘子 ， 这 是 出 于 同一 个 原因 : 
每 隔 一 个 数目 是 奇数 ， 且 尺子 上 每 隔 一 个 刻度 都 是 最 短 的 。 
也 许 我 们 的 僧侣 的 确 知道 这 个 秘密 ， 否 则 我 们 就 很 难 想象 
他 们 怎么 去 决定 下 一 步 该 移动 哪 一 个 盘子 。 

用 归纳 法 形式 化 证 明 在 汉 诺 塔 方案 中 每 隔 一 步 移 动 小 
盘子 (开始 和 结束 都 是 这 样 的 移动 ) 能 让 我 们 深 感受 益 : 图 5.9 一 进 制 计数 与 刻度 尺 函数 
当 n = 1 时 ， 只 有 包括 小 盘子 一 次 移动 ， 因 此 性 质 成 立 。 当 
n > 1 时 ， 假 设 在 "一 1 时 性 质 成 立 ， 由 递归 结构 隐 含 着 性 质 
依然 对 "成 立 : 对 于 "一 1 的 第 一 次 求解 从 移动 一 个 小 盘子 开 
始 ， 对 于 n 一 1 的 第 二 次 求解 从 移动 一 个 小 盘子 结束 ， 因 此 对 于 n 而 言 的 解法 都 是 从 移动 一 个 小 
盘子 开始 和 结束 的 。 我 们 把 不 涉及 小 盘子 的 移动 放 在 这 两 个 涉及 小 盘子 的 移动 之 间 ( 即 结束 
1 一 1 个 盘子 的 第 一 次 求解 和 开始 x 一 1 个 盘子 的 第 二 次 求解 ) ， 因 此 每 隔 一 次 移动 就 会 处 及 小 盘 
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注 ; 计算 刻度 尺 函 数 相当 于 计算 在 偶数 
N 位 数字 中 尾 组 为 0 的 个 数 。 
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子 的 性 质 成 立 。 

程序 5.9 是 另 一 种 的 画 尺 子 的 方法 ， 受 到 对 应 的 二 进 制 数 启发 而 得 ( 见 图 5-10)。 我 们 把 算 
法 的 这 个 版 本 称 为 自 底 向 上 (bottom-up) 的 实现 。 它 是 一 种 非 递归 的 方法 ， 但 它 肯定 受到 了 
递归 算法 的 启示 。 分 治 算法 与 数字 的 二 进 制 表示 之 间 的 相关 性 常常 为 分 析 和 开发 改进 版 本 的 
算法 提供 真知 灼 见 ， 例 如 自 底 向 上 的 方法 。 我 们 考虑 这 个 观点 ， 以 便 了 解 甚至 可 能 去 改进 我 
们 考察 的 每 一 个 分 治 算法 。 


程序 5.9， 画 一 把 尺子 的 非 递 归程 序 
与 程序 .8 相反 ， 我 们 也 可 以 首先 画 出 所 有 长 度 为 1 的 刻度 线 ， 再 画 出 所 有 长 度 为 2 的 刻度 
线 ， 以 此 类 推 ， 通 过 这 种 方法 就 可 以 画 出 一 把 尺子 。 变 量 姥 示 刻 度 线 的 长 度 ， 变 量 ,于 示 在 两 
个 连续 的 长 度 t 的 刻度 线 之 间 刻 度 线 的 数目 。 外 层 for 循 环 对 t 进 行 增 量 运 算 ， 维 持 性 质 | = 2 一 。 
内 层 for 循 环 画 出 所 有 长 度 为 t 的 刻度 线 。 
rule(int 1, int r, int h) 
{ 
int i, j, t; 
for (t= 1, j= 1;t <=h; j += j, t++) 
for (i = 0; l+j+i <= r; i += j+j) 
mark(l+j+i, t); 


图 5-10 自 底 向 上 画 一 把 尺子 
注 : 要 非 递归 地 画 一 把 尺子 ， 交 替 画 长 度 为 1 的 刻度 线 ， 跳 过 一 些 位 置 ; 然后 交 普 通 长 度 为 2 的 刻度 线 ， 跳 过 保 
留 的 位 置 ， 交替 画 长 度 为 3 的 刻度 线 ， 跳 过 保留 的 位 置 ;以 此 类 推 。 

当 我 们 画 一 把 尺子 时 ， 自 底 向 上 的 方法 涉及 重新 安排 计算 的 顺序 。 图 5-11 显 示 了 另 一 个 
例子 ， 在 其 中 我 们 重新 安排 了 递归 实现 中 的 三 个 函数 调用 的 顺序 。 它 以 我 们 前 面 描 述 的 方式 
反映 出 递归 计算 : 画 出 中 间 的 刻度 线 ， 然 后 画 左 半 部 分 ， 再 画 右 半 部 分 。 画 线 的 样式 是 复杂 
的 ， 但 却 是 简单 交换 程序 5.8 中 两 条 语句 的 结果 。 就 如 我 们 将 在 5.6 节 看 到 的 ， 图 5-8 与 图 5-11 
的 关系 和 算术 表达 式 的 后 级 与 前 绎 间 的 区 别 实际 上 是 类 似 的 。 

按照 在 图 5-8 中 所 示 的 顺序 画 刻度 线 刻 ， 要 比 在 程序 5.9 中 包含 进行 重新 安排 计算 顺序 并 在 
图 5-11 中 指出 计算 相 比 可 能 更 容易 接受 。 原 因 在 于 只 要 想像 出 一 种 画 线 工 具 ， 它 能 够 连续 移 
动 到 下 一 条 刻度 线 ， 我 们 就 可 以 画 一 条 任意 长 的 尺子 。 类 似 地 ， 要 解决 汉 诺 塔 问题 ， 我 们 就 
受 限 于 按照 它们 被 完成 的 顺序 产生 盘子 移动 的 序列 。 总 的 来 说 递归 程序 依赖 于 按 特 定 顺序 解 
决 的 子 问题 。 对 其 他 计算 来 说 例如， 可 见 程序 5.6) 我 们 解决 这 个 子 问 题 的 顺序 是 不 相关 的 。 
对 于 这 一 类 计算 ， 惟 一 的 约束 就 是 我 们 必须 先 解决 子 问题 再 解决 主 问 题 。 理 解 什么 时 候 有 重 
排 计 算 的 灵活 性 ， 不 仅 是 算法 设计 成 功 的 秘密 ， 而 且 在 许多 上 下 文中 有 直接 的 实际 效果 。 比 
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如 说 ， 我 们 考察 在 并 行 处 理 器 上 实现 算法 时 ， 这 就 是 至 关 重要 的 。 


rule(0, 8, 3) 
mark (4, 3) 
rule(0, 4, 2) 
mark(2, 2) 
rule(0, 2, 1) 
mark(1, 1) 
rule(0, 1, 0) 
rule(1, 2, 0) 
rule(2, 4, 1) 
mark(3, 1) 
rule(2, 3, 0) 
rule(3, 4, 0) 
rule(4, 8, 2) 
mark(6, 2) 
rule(4, 6, 1) 
mark(5, 1) 
rule(4, 5, 0) 
rule(5, 6, 0) 
rule(6, 8, 1) 
mark(7, 1) 
rule(6, 7, 0) 
rule(7, 8, 0) 





图 5-11 画 尺 子 函 数 调用 (前 序 版 本 ) 
注 : 这 一 序列 指示 出 在 递归 调用 之 前 (而 非 它们 之 间 ) 画 刻度 线 的 结果 。 


自 底 向 上 的 方法 符合 算法 设计 的 一 般 方法 ， 在 该 算法 设计 中 我 们 先 解决 平凡 的 子 问 题 ， 
然后 把 这 些 子 问题 的 解 组 合 起 来 解决 稍 大 的 子 问 题 ， 以 此 类 推 ， 直 到 解决 整个 问题 。 这 样 的 
方法 称 为 组 合 一 分 治 法 。 

从 画 一 把 尺子 到 画图 $-12 所 示 的 二 维 图 案 ， 只 有 一 小 步 距离 。 该 图 显示 了 一 个 简单 递归 
描述 可 以 导致 一 个 看 上 去 很 复杂 的 计算 ( 见 练习 5.30)。 

如 图 $-12 所 示 的 递归 定义 的 几何 图 案 ， 有 时 称 为 分 形 。 如 果 使 用 更 多 复杂 的 画图 元 素 ， 
且 涉 及 更 多 复杂 的 递归 调用 (特别 是 那些 在 复 平 面 上 和 在 实数 上 递归 定义 的 函数 ) ， 就 能 开发 
出 显著 多 样 性 与 复杂 性 的 图 案 。 图 5-13 所 显示 的 另 一 个 例子 是 Koch 星 ， 它 的 递归 定义 如 下 : 0 
阶 的 Koch 星 是 图 4-3 中 的 简单 小 山 示 例 ，n 阶 的 Koch 星 是 n 一 1 阶 的 Koch 星 ， 其 中 每 条 线段 都 以 
0 阶 Koch 星 经 适度 扩展 代替 的 Koch 星 。 

如 同 画 尺子 和 汉 诺 塔 的 解决 办 法 ， 这 些 算法 是 步 数 的 线性 函数 ， 但 该 步 数 在 递归 的 最 大 
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深度 上 是 指数 级 的 〈 见 练习 5.29 和 练习 5.33) 。 它 们 也 能 直接 与 适当 数 制 系统 中 的 计数 相关 
( 见 练习 5.34) 。 


其 名 加 其 轴 项 轴 凑 ， 
[入 和 


避 并 本 民 并 民 
导 避 导 半 轩辕 
避 导 居民 加 导 
轩 半 这 计 民 半 
和 和 
加 避 避 半 江 并 
避 轩 加 各 各 并 
和 


/kochR 
{ 
2 copy ge {dup 0 rlineto } 
{ 


3 div 
2 copy kochR 
60 rotate 
2 copy kochR 
-120 rotate 
2 copy kochR 
60 rotate 
2 copy kochR 
} ifelse 
Pop Pop 
} def 

0 0 moveto 

27 81 kochR 

0 27 moveto 

9 81 kochR 

0 54 moveto 

3 81 kochR 

0 81 moveto 

1 81 kochR 

stroke 








图 5-12 二 维 分 形 星 图 5-13 Koch 分 形 的 递归 PostScript 


注 : 这 个 分 形 是 图 5$-10 的 二 维 版 本 。 底 部 突出 的 方 框 突 。 注 : 对 于 图 4-3PostScript 程 序 的 修正 ， 把 输出 转换 成 分 、 
显 了 计算 的 递归 结构 。 形 〈 见 正文 ) 。 


汉 诺 塔 问题 、 画 尺子 问题 和 分 形 都 是 很 有 趣 的 ， 而 且 与 二 进 制 数 的 联系 也 是 令 人 惊异 的 ， 
但 是 在 所 有 这 些 主题 中 我 们 的 主要 兴趣 在 于 ， 它 们 提供 了 理解 这 些 基 本 算法 设计 范 型 的 启示 ， 
这 些 分 半 的 范 型 能 独立 解决 一 个 或 两 个 分 半 部 分 ， 这 种 技术 也 许 是 本 书 中 所 要 考虑 的 最 重要 
的 技术 。 表 5-1 包 括 了 关于 二 分 搜索 与 归并 排序 的 细节 ， 它 们 不 但 是 重要 而 广泛 应 用 的 实用 算 
法 ， 而 且 例 示 了 分 治 法 的 算法 设计 范 型 。 
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表 5-1 基本 的 分 治 算法 


二 分 搜索 ( 见 第 2 章 ， 第 12 章 ) 与 归并 排序 ( 见 第 8 章 ) 都 是 分 治 算法 范 型 ， 分 别提 供用 于 搜索 与 排序 的 可 保证 
的 最 优 性 能 。 该 递归 方程 指示 了 每 一 算法 的 分 治 计算 的 本 质 〈 见 2.5 节 、2.6 节 最 右 栏 的 解决 办 法 ) 。 二 分 搜索 将 一 个 
,问题 分 为 两 半 ， 先 进行 一 次 比较 ， 然 后 递归 调用 其 中 的 一 半 。 归 并 排序 将 一 个 问题 分 成 两 半 ， 分 别 对 两 部 分 进行 弟 
归 运 算 ， 再 进行 w 次 比较 。 在 本 章 中 ， 我 们 将 考察 大 量 用 这 些 递归 模式 开发 的 其 他 算法 。 

一 


递归 公式 近似 解 
二 分 搜索 
比较 Cuw=Cw+l lgN 
归并 排序 
递归 调用 4uw=24wz+1 N 
比较 Cv=2Cw+N NilgN 


快速 排序 ( 见 第 7 章 ) 与 二 分 树 搜索 ( 见 第 12 章 ) 代表 了 基本 分 治 法 主题 的 重要 变 体 ， 问 
题 被 分 解 成 大 小 为 一 1 和 N 一 k 的 子 问题 ， 基 中 kX 值 由 输入 决定 。 对 于 随机 输入 ， 这 些 算法 把 问 
题 平均 分 解 成 大 小 相等 的 子 问题 (就 如 在 归并 排序 或 二 分 搜索 中 那样 )。 当 我 们 讨论 这 些 算法 
时 ， 就 研究 这 种 不 同 效 果 的 分 析 。 

基本 主题 的 其 他 也 值得 我 们 认真 考虑 的 变 体 包 括 : 分 解 成 可 变 大 小 的 部 分 、 分 解 成 多 于 
两 个 的 部 分 、 分 解 成 重 又 部 分 、 在 算法 的 非 递 归 部 分 进行 大 量 的 工作 。 一 般 来 说 ， 分 治 算法 
包括 的 工作 有 把 输入 进行 分 片 ， 或 者 合并 两 个 独立 解决 的 输入 部 分 的 处 理 结果 ， 或 者 在 一 半 
的 输入 被 处 理 后 继续 协助 跟 进 。 也 就 是 说 ， 在 两 个 递归 调用 之 前 、 之 后 或 之 间 可 以 有 代码 。 
自然 ， 这 类 变 体 导致 的 算法 比 二 分 搜索 与 归并 排序 更 复杂 ， 并 且 分 析 起 来 更 困难 。 我 们 考察 
本 书 中 的 大 量 例子 ， 在 第 八 部 分 返回 到 高 级 应 用 与 分 析 。 
练习 
5.16 编写 一 个 递归 程序 ， 基 于 比较 数组 中 第 一 个 元 素 与 余下 部 分 中 的 最 大 元 素 (递归 计算 )， 
求 出 数组 中 的 最 大 元 素 。 

5.17 编写 一 个 递归 程序 ， 求 出 链表 中 的 最 大 元 素 。 

5.18 修改 在 数组 中 求 最 大 元 素 的 分 治 程 序 (程序 5.6) ， 把 一 个 大 小 为 N 的 数组 分 解 为 大 小 为 K 
= 2 的 一 部 分 和 大 小 为 N 一 的 另 一 部 分 (以 便 至 少 有 一 部 分 的 大 小 是 2 的 宕 ) 。 

5.19 根据 来 自 练习 5.18 的 程序 所 做 的 递归 调用 ， 画 出 数组 大 小 为 11 时 所 对 应 的 树 。 

。5.20 ”用 归纳 法 证 明 分 治 算法 产生 的 函数 调用 的 次 数 是 线性 的 ， 该 分 治 算法 把 一 个 问题 分 解 

”为 构成 整体 的 若干 个 部 分 ， 然 后 递归 地 解决 每 一 部 分 。 

“5.21 证 明 : 汉 诺 塔 间 题 ( 见 程序 5.7) 的 递归 解 是 最 优 的 。 换 句 话说， 证 明 用 任何 方法 至 少 
需要 2 一 1 次 移动 。 
>5.22 编写 一 个 递归 程序 ， 计 算 在 一 把 有 2" 一 1 个 刻度 的 尺子 上 画 出 第 ;个 刻度 的 长 诬 。 

"5.23 ”考察 诸如 图 5-9 所 示 的 "位 数字 的 表 ， 寻 找 决 定 求解 汉 诺 塔 问 题 的 第 ; 步 移 动 方向 的 第 ;个 
数字 的 性 质 (如 图 5-7 的 符号 位 指示 的 )。 
5.24 ”编写 一 个 程序 ， 如 同 程 序 5.9 那 样 ， 通 过 填充 一 个 包括 所 有 移动 的 数组 ， 产 生 汉 诺 塔 问 
题 的 解 。 

05.25 编写 一 个 递归 程序 ， 用 0 与 1 填充 一 个 n x 2 数组 ， 其 中 该 数组 如 图 $-9 所 述 那样 代表 了 所 
有 nn 位 二 进 制 数字 。 

5.26 使 用 递归 的 画 尺 子 程序 ( 见 程序 5.8) ， 画 出 这 些 任意 的 参数 值 ，rule(0,11,4)， 
rule(4,20,4) 和 rule(7,30,5) 的 结果 。 
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5.27 证 明 关 于 画 尺 子 程序 ( 见 程序 5.8) 的 下 列 事实 : 如 果 它 开始 两 个 参数 之 间 的 差 是 2 的 寡 ， 


那么 它 的 递归 调用 也 有 这 一 性 质 。 


05.28 编写 一 个 函数 ， 可 以 高 效 计算 一 个 整数 的 二 进 制 表示 中 尾 缀 为 0 的 数目 。 

05.29 在 图 5-12 中 有 多 少 个 正方 形 (要 数 出 被 更 大 的 正方 形 所 覆盖 的 那些 ) 。 

55.30 ”编写 一 个 C 递 归程 序 ， 以 使 它 能 输出 一 个 画 出 图 5-12 底 下 那个 图 的 PostScript 程 序 ， 调 用 
一 系列 x y mr box 函数 ， 在 (x, y) 处 画 一 个 边 长 为 的 正方 形 。 用 PostScript 实 现 box ( 见 4.3 节 ) 。 


5.31 
中 的 底下 那个 图 。 


编写 一 个 自 底 向 上 的 非 递归 程序 (类似 于 程序 5.9)， 以 练习 5.30 所 述 的 方法 画 出 图 5-12 


。5.32 编写 一 个 PostScript 程 序 ， 画 出 图 $-12 中 底下 的 那个 图 。 


>5.33 在 n 阶 Koch 星 中 有 多 少 条 线段 ? 


“5.34 ” 夯 出 一 个 n 阶 Koch 星 ,执行 一 系列 的 形 如 “旋转 a 度 ， 再 画 一 个 长 度 为 1/3" 的 线段 ”的 
命令 。 找 出 与 数字 系统 的 对 应 关系 ， 通 过 使 计数 器 增 1， 再 用 计数 器 值 计算 w 角 ， 使 你 可 以 画 


出 星 图 。 


“5.35 ”修正 图 5-13 中 的 Koch 星 程序 ， 产 生 另 一 种 分 形 ， 它 基于 0 阶 的 五 边 形 ， 定 义 为 能 以 


东 、 北 、 东 、 南 、 东 的 顺序 移动 一 个 单位 
的 分 形 。 

5.36 编写 一 个 递归 分 治 革 函数 ,给 定 端点 ， 
在 整数 坐标 空间 中 画 出 一 条 线段 的 近似 值 。 
假设 所 有 坐标 在 0 和 M 之 闻 。 提 示 : 先 给 出 
一 个 接近 中 间 的 点 。 


5.3 动态 规划 


我 们 在 5.2 节 中 考察 的 分 治 算法 的 一 个 
本 质 特征 就 是 这 些 算法 把 一 个 问题 分 解 成 独 
立 的 子 问题 。 如 果子 问题 并 不 独立 ， 问 题 就 
会 复杂 得 多 ， 主 要 原因 是 即使 是 这 种 最 简单 
算法 的 直接 递归 实现 ， 也 可 能 需要 难以 想像 
的 时 间 。 在 这 一 节 里 ， 我 们 考察 可 用 于 一 类 
重要 问题 的 系统 技术 来 避免 这 个 缺陷 。 

例如 ， 程 序 5.10 是 定义 斐 波 纳 契 数 ( 见 
2.3 节 ) 的 递归 方程 的 直接 实现 。 千 万 不 要 
使 用 这 样 的 程序 ， 因 为 它 的 效率 极 低 。 实 际 
上 , 对 于 计算 的 递归 调用 的 次 数 正 是 F,,,。 
但 是 ， Fw 大 约 是 米 , 而 $ = 1.618 是 黄金 比率 。 
糟糕 的 事实 是 程序 5.10 对 于 这 个 微不足道 的 
计算 是 指数 时 间 的 算法 。 图 5-14 描 述 了 一 个 
小 规模 例子 的 递归 调用 ， 清 晰 地 说 明了 所 包 
含 的 重新 计算 的 量 。 





图 5-14 斐 波 纳 契 数 的 递归 算法 的 结构 


: 使 用 标准 递归 算法 计算 Fs 所 需 的 递归 调用 图 示 ， 表 明 


了 对 重 登 的 子 问 题 的 递归 调用 能 够 导致 指数 级 的 代 
价 。 在 这 个 例子 中 ， 第 二 个 递归 调用 忽略 了 第 一 次 递 
归 调 用 过 程 中 也 做 的 计算 ， 这 样 导致 了 大 量 重复 计算 ， 
因为 这 种 效应 使 递归 调用 次 数 加 倍 。 计 算 Fe= 8 的 递 
归 调 用 ( 它 在 根 的 右 子 树 和 根 的 左 子 树 的 左 子 树 中 反 
映 出 来 ) 如 下 所 示 。 
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| “程序 5.10 ”本 波 纳 奖 疾 (递归 实现 】 Sn 
这 一 程序 虽然 紧凑 和 精致， 但 却 不 可 用 ， 其 原因 在 二 它 使 用 指数 级 时 间 计算 Fy。 计算 F，， 


的 运行 时 间 9 约 等 于 计算 F 的 时 间 的 1.6 倍 。 比 如 说 ， 由 于 多 > 60， 如 果 我 们 注意 到 计算 F 需 
要 一 秒 的 时 间 ， 我 们 就 会 知道 计算 , 的 运行 时 间 将 会 超过 一 分 钟 ， 计 算 F , 18 的 运行 时 间 将 
会 超过 一 小 时 。 

int F(int i) 
{ 
if (i < 1) return 0; 
if (i == 1) return 1; 
return F(i-1) + F(i-2); 
} 


相 比 之 下 ， 如 果 首 先 计 算 前 N 个 斐 波 纳 契 数 ， 并 把 它们 存储 在 一 个 数组 中 ， 就 可 以 使 用 线 

F[0] = 0; F[1] = 

for (i = 2; i <= Ni i++) 

F[i] = F[i-1] + F[i-2]; 

该 数目 以 指数 级 增长 ， 因 此 这 个 数组 太 小 ， 比 如 说 F4 = 1836311903 是 一 个 32 位 整数 所 能 
表示 的 最 大 的 斐 波 纳 契 数 ， 所 以 大 小 为 46 的 数组 可 以 做 到 。 

这 一 技术 给 了 我 们 一 个 获取 任何 递归 关系 数值 解 的 快速 方法 。 在 斐 波 纳 契 数 的 例子 中 ， 
我 们 甚至 能 舍弃 数组 ， 只 需 保存 前 两 个 值 ( 见 练习 5.37) ， 对 于 大 量 的 其 他 经 常 遇 到 的 递归 
方程 (比如 见 练习 5.40)， 我 们 需要 用 所 有 已 知 值 来 维持 数组 。 

递归 是 一 个 有 整数 值 的 递归 函数 。 我 们 在 上 一 段 中 的 讨论 可 以 得 出 这 样 的 结论 : 我 们 可 
以 按 从 最 小 开始 的 顺序 计算 所 有 函数 值 来 求 任何 类 似 函 数 的 值 ， 在 每 一 步 使 用 先前 已 经 计算 
出 的 值 来 计算 当前 值 。 我 们 称 这 项 技术 为 自 底 向 上 的 动态 规划 。 只 要 有 存储 已 计算 出 的 值 的 
空间 ， 就 能 把 这 项 技术 应 用 到 任何 递归 计算 中 。 这 是 一 个 算法 设计 的 技术 ， 已 广泛 成 功 应 用 
于 许多 问题 的 求解 中 。 我 们 必须 注意 一 个 简单 技巧 ， 以 便 能 把 算法 从 指数 级 运行 时 间 向 线性 
运行 时 间 改 进 。 

自 顶 向 下 的 动态 规划 其 至 是 一 个 更 简单 的 
技术 ， 这 项 技术 允许 我 们 执行 递归 函数 的 代价 
与 自 底 向 上 的 动态 规划 一 样 〈 或 许 更 小 ) ， 但 
它 的 计算 是 自动 的 。 我 们 实现 递归 程序 来 存储 
它 所 计算 的 每 一 个 值 〈 正 如 它 最 末 的 步骤 )， 
并 通过 检查 所 存储 的 值 ， 来 避免 重新 计算 它们 
中 的 任何 项 (正如 它 最 初 的 步骤 )。 程 序 5.11 是 
程序 5.10 的 机 械 转换 ， 通 过 自 顶 向 下 的 动态 规 
划 将 它 的 运行 时 间 减 少 为 线性 。 图 5-15 显 示 了 ”图 5-15 计算 斐 波 纳 契 数 的 自 顶 向 下 的 动态 规划 
由 于 自动 转换 使 得 递归 调用 的 数目 显著 减少 。 注 : 这 一 图 解 显示 了 使 用 自 顶 向 下 动态 规划 的 递归 算法 
自 顶 向 下 的 动态 规划 有 时 也 称 为 备忘录 法 来 计算 Fas 时 的 递归 调用 的 过 程 ， 显 示 出 如 何 存储 已 
(memoization)。 计算 的 值 ,以 使 代价 从 指数 级 降 到 线性 ( 见 图 5-14)。 


程序 5.11 斐 波 纳 契 数 (动态 规划 ) 
通过 把 所 计算 的 值 存储 在 递归 过 程 的 外 部 数组 中 ， 明确 地 避免 重复 计算 。 这 一 程序 计算 





务 5 昔 并 妇 与 奏 129 





Fn 的 时 间 与 N 成 正比 ， 这 个 结果 与 程序 5.10 中 的 时 间 O(4) 形 成 对 比 。 


int F(lint i) 

{ int t; 
if (knownF[i] != unknown) return knownF [i]; 
if (i == 0) t = 0; 
if (i == 1) t= 1; 
if (i > 1) t = F(i-1) + F(i-2); 
return knownF[i] = 七 ; 

} 





对 于 更 复杂 的 程序 例子 , .考察 背包 (knapsack) 
问题 : 一 个 小 偷 打 动 一 个 保险 箱 ， 发 现 柜 子 里 装 满 N 
类 不 同 大 小 与 价值 的 物 晶 ， 但 他 只 有 一 个 容积 为 M 的 
背包 来 装 物品 。 背 包 问 题 就 是 要 找 出 一 个 小 偷 该 选 
择 的 物品 组 合 一 一 把 所 偷 物 品 的 最 大 价值 拿 走 。 如 
图 5-16 中 的 说 明 ， 背 包 大 小 为 17， 小 偷 拿 走 5 个 A 
(而 不 是 6 个 ), 价值 总 共 为 20, 或 者 D 和 E， 总 共 为 
24， 或 是 其 他 组 合 中 的 一 种 。 我 们 的 目标 是 对 于 任 
一 给 定 项 的 集合 与 背包 容量 ， 找 出 一 个 高 效 的 算法 
使 得 在 众多 可 能 性 中 价值 最 大 。 

在 许多 应 用 中 ， 背 包 问 题 的 求解 方法 非常 重要 。- 
例如 ， 一 个 航运 公司 希望 知道 装载 一 卡车 或 一 货轮 
货物 的 最 佳 途径 。 在 这 类 应 用 程序 中 ， 其 他 的 类 似 
问题 也 会 产生 ; 比如 说 ， 对 于 每 一 个 高 效 的 装载 项 
会 有 一 个 限制 数目 。 又 或 许 ， 不 是 一 部 而 是 有 两 部 
卡车 ， 大 量 的 类 似 问 题 都 能 用 同一 办 法 解决 ， 但 我 
们 只 考察 刚才 所 阐述 的 基本 问题 的 求解 方法 ， 还 有 
一 些 问题 要 困难 得 多 。 于 是 在 这 些 问 题 的 可 行 与 不 
可 行 之 间 就 有 一 条 很 好 的 界线 ， 我 们 将 在 第 八 部 分 
详尽 讨论 。 

在 一 个 背包 问题 的 递归 解法 中 ， 每 次 我 们 选择 
一 个 项 ,我们 都 假设 可 以 (递归 地 ) 找到 打包 剩余 
背包 的 最 优 方式 。 对 于 大 小 为 cap 的 背包 ， 对 于 可 用 
类 型 的 每 一 项 i ， 我 们 可 以 把 i 放 入 背包 的 同时 使 其 
他 项 有 最 优 打包 ， 来 得 到 一 种 最 优 解 。 简 单 地 说 最 
优 打包 的 方式 就 是 已 经 找到 (或 将 要 找到 ) 大 小 为 
cap-item[i].size 的 更 小 背包 。 这 种 解法 利用 了 最 
优 决 策 的 原理 ,一旦 做 出 决策 ， 就 不 需要 改变 。 一 
且 我 们 知道 如 何 打 较 小 容量 的 背包 ， 并 获得 最 优 项 
的 集合 ， 不 论 考虑 的 下 一 个 项 是 什么 ， 我 们 都 不 需 
要 重新 检查 这 些 问题 。 








图 5-16 背包 问题 示例 


: 背包 问题 示例 。 上 部 表示 背包 容积 大 小 和 


不 同 大 小 〈 水 平 ) 与 值 ( 重 直 ) 的 项 构成 。 
这 个 图 显示 了 4 种 不 同 的 方式 以 填充 一 个 大 
小 为 17 的 背包 ， 其 中 两 个 方式 使 最 高 的 可 
能 总 值 为 24。 
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程序 5.12 是 一 个 基于 上 述 讨 论 的 直接 递归 方法 ， 进 一 步 来 说 ， 这 一 程序 不 适用 于 解决 实际 
问题 ， 因 为 它 大 量 的 重新 计算 花费 了 指数 级 时 间 ( 见 图 5-17) ， 但 我 们 能 自动 运用 自 顶 向 下 的 
动态 规划 来 消除 这 一 问题 ， 如 程序 5.13 所 示 。 如 前 所 述 ， 这 种 技术 消除 了 所 有 的 重复 计算 ， 


如 图 5-18 所 示 。 
oor > @ 
[6 ont oe ho 
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图 5-17 背包 算法 的 递归 结构 
注 ; 这 棵 树 表示 了 程序 5.12 中 的 简单 递归 背包 算法 的 递归 调用 结构 。 每 一 个 节点 中 的 数 代表 了 背包 中 的 剩余 容 


量 。 算 法 遵 遇 了 指数 性 能 的 相同 基本 问题 ， 原 因 在 于 处 理 重 登 的 子 问题 时 进行 了 大 量 的 重复 计算 ， 这 些 子 
问题 我 们 在 计算 左 波 纳 契 数 时 考虑 过 。 


程序 5.12， 背 包 问题 (递归 实现 ) 
就 如 我 们 在 计算 斐 波 纳 契 数 问题 的 史 归 求解 方法 ， 不 要 使 用 这 个 程序 。 因为 它 花费 指数 
时 间 ， 即 使 是 对 于 小 规模 问题 甚至 也 不 能 计算 。 但 是 它 毕 竞 表明 了 一 种 我 们 可 以 很 易 改 进 的 
紧凑 求解 方法 〈 见 程序 5.13) 。 这 一 代码 假设 那些 项 都 是 大 小 和 值 的 结构 ， 并 由 ， 


typedef struct {int size; int val;} Item; 


定义 。 我 们 有 一 个 类 型 为 Item 的 N 项 组 成 的 数组 。 对 于 每 一 个 可 能 的 项 ， 我 们 (递归 地 ) 
计算 包括 那 一 项 所 得 到 的 最 大 值 ， 然 后 找 出 所 有 这 些 值 的 最 大 值 。 
int knap(int cap) 
{ int i, space, max, t; 
for {i = 0, max = 0; i < N; i++) 
if ((space = cap-items [i] .size) >= 0) 
if ((t = knap(space) + items [i] .val) > max) 
max = 了 七; 
return max; 





图 5-18 背包 算法 的 自 顶 向 下 的 动态 规划 


注 ; 像 在 计算 斐 波 纳 契 数 中 所 使 用 的 方法 一 样 ， 保 看 已 经 计算 出 的 值 的 技巧 使 背包 算法 的 代价 从 指数 时 间 降 为 
线性 时 间 ( 见 图 5-17)。 


程序 5.13 背包 问题 (动态 规划 ) ， 
对 于 程序 5.12 的 代码 的 改进 ， 减 少 了 运行 时 间 ， 使 时 间 从 指数 级 变 成 线性 。 只 需 简单 地 保 
存 所 计算 的 函数 值 ， 然 后 在 需要 的 时 候 检 索 已 经 保存 的 值 (使 用 一 个 观察 哨 值 来 表达 未 知 值 )， 
而 不 是 进行 递归 调用 。 我 们 存储 项 的 索引 ， 以 便 能 够 在 计算 之 后 重建 背包 的 内 容 ， 如 果 和 希望 
itemKnown[M] 在 背包 中 ， 那 么 余下 的 内 容 就 跟 大 小 为 M-itemKnown[M] .size 的 最 优 背 包 的 内 
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容 一 致 ， 因 此 ，itemKknown[M-item[M].size] 在 背包 里 ， 以 此 类 推 。 


int knap(int M) 
{ int i, space, max, maxi, t; 
if (maxKnown [M] != unknown) return maxKnown [M] ; 
for (i = 0, max = 0; i < N; i++) “ 
if ((space = M-items[i] .size) >= 0) 
if ((t = knap(space) + items[i] .val) > max) 
{ max = t; maxi = i; } 
maxKnown[M] = max; itemKnown [M] = items [maxi]; 
return max; | 


} 


通过 设计 ， 动 态 规划 消除 了 任 一 递归 程序 中 的 所 有 重复 计算 ， 只 要 我 们 能 够 花费 得 起 存 
储 参数 大 小 小 于 所 调用 问题 的 所 有 函数 值 这 一 条 件 。 

性 质 5.3 ”动态 规划 降 仗 了 递归 函数 的 运行 时 间 ， 也 就 是 减少 了 计算 所 有 小 于 或 等 于 给 定 
参数 的 递归 调用 所 要 求 的 时 间 ， 其 中 处 理 一 次 递归 调用 的 时 间 为 常量 。 

见 练习 5.50。 国 

对 于 背包 问题 , 性 质 5.3 上 暗示 了 运行 时 间 与 MN 成 正比 。 因 此 ， 只 要 背包 容积 并 非 极其 庞大 ， 
我 们 就 能 轻松 地 求解 背包 问题 。 对 于 极其 庞大 的 背包 容积 ， 需 要 的 时 间 和 空间 将 可 能 大 到 被 
禁止 的 程度 。 

自 底 向 上 的 动态 规划 同样 应 用 于 解决 背包 问题 。 实 际 上 ， 我 们 可 以 随时 在 使 用 自 顶 向 下 
的 方法 去 使 用 自 底 向 上 的 方法 ， 当 然 我 们 需要 谨慎 地 确保 按照 一 个 恰当 的 顺序 计算 函数 值 ， 
以 便 在 我 们 需要 每 一 个 函数 值 时 它们 已 被 计算 出 来 。 对 于 带 有 一 个 整 型 参数 的 函数 ， 诸 如 我 
们 已 经 考虑 的 那 两 个 ， 我 们 一 般 是 以 参数 递增 的 顺序 来 进行 处 理 ( 见 练习 5.53)。 对 于 更 复杂 
的 递归 函数 ， 要 确定 一 个 恰当 的 顺序 也 会 是 一 个 挑战 的 问题 。 

例如 ， 我 们 不 需要 把 递归 函数 限制 到 单 整 型 参数 的 情形 。 当 有 一 个 带 有 多 个 整 型 参数 的 
函数 时 ， 可 以 把 较 小 的 子 问题 的 解 存储 在 多 维 数组 中 ， 一 个 参数 对 应 数组 的 一 维 。 其 他 那些 
完全 不 涉及 整 型 参数 的 情形 ， 就 使 用 抽象 的 离散 问题 公式 ， 它 能 让 我 们 把 问题 分 解 为 一 个 个 
的 小 问题 。 我 们 将 在 第 五 部 分 至 第 八 部 分 考察 这 类 问题 的 例子 。 

在 自 项 向 下 的 动态 规划 中 ， 我 们 存储 已 知 的 值 ， 在 自 底 向 上 的 动态 规划 中 ， 我 们 预先 计 
算 这 些 值 。 我 们 通常 选择 自 顶 向 下 的 动态 规划 而 不 选择 自 底 向 上 动态 规划 ， 其 原因 如 下 : 

。 自 项 向 下 的 动态 规划 是 一 个 自然 的 求解 问题 的 机 械 转 换 。 

*。 计算 子 问题 的 顺序 能 自己 处 理 。 

* 我们 可 能 不 需要 计算 所 有 子 问 题 的 解 。 

动态 规划 的 应 用 在 子 问题 的 本 质 以 及 我 们 关于 子 问题 的 要 存储 的 信息 总 量 是 不 同 的 。 

我 们 不 能 忽视 的 至 关 重 要 的 一 点 是 ， 当 我 们 需要 的 可 能 的 函数 值 的 数目 太 大 以 至 于 不 能 
存储 ( 自 顶 向 下 ) 或 预先 计算 ( 自 底 向 上 ) 所 有 值 时 ， 动 态 规划 就 会 变 得 低 效 。 例 如 ， 如 果 
背包 问题 中 的 WM 和 项 是 64 位 的 或 是 浮 点 数 ， 我 们 将 无 法 通过 索引 数组 去 存储 值 。 这 一 差别 不 
仅 导 致 了 小 麻烦 ， 还 带 来 了 一 个 主要 困难 。 然 而 ， 对 这 种 问题 ， 却 没有 好 的 求解 方法 。 我 们 
将 在 第 八 部 分 中 看 到 ， 的 确 没 有 好 的 解法 。 

动态 规划 是 一 种 算法 设计 技巧 ， 基 本 适合 于 我 们 在 第 五 部 分 至 第 八 部 分 讨论 的 那 类 高 级 
问题 。 我 们 在 第 二 部 分 至 第 四 部 分 考察 的 大 多 数 算法 都 是 分 治 法 方法 ， 并 且 都 具有 不 重复 的 
子 问题 。 我 们 关注 亚 二 次 算法 或 亚 线性 算法 ， 而 不 是 亚 指 数 算法 的 性 能 。 然 而 ， 自 顶 向 下 的 
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动态 规划 确实 是 开发 高 效 的 递归 算法 实现 的 基本 技术 ， 这 类 算法 应 归 人 任何 从 事 算法 设计 与 
实现 所 需 的 工具 箱 。 

练习 

>5.37 编写 计算 Fy mod M 的 函数 ， 要求 对 中 间 计 算 只 使 用 一 个 常量 的 空间 。 

5.38 Fw 可 以 被 表示 为 64 位 的 整数 时 ， 最 大 的 N 是 多 少 ? 

25.39 在 程序 5.11 中 交换 递归 调用 的 情况 下 ， 画 出 对 应 图 5$-15 的 树 。 

5.40 编写 一 个 函数 ， 使 用 自 底 向 上 的 动态 规划 来 计算 以 下 递归 方程 所 定义 的 PP 的 值 : 

Pn= [IN/2]+ Fv) + 如 wal， 对 于 wz> 1 且 P =0 

画 出 一 个 N 与 Pv 一 N lg N/2 之 间 的 曲线 图 ， 其中, 0<N<1024。 

5.41 编写 一 个 函数 ， 使 用 自 顶 向 下 的 动态 规划 求解 练习 5.40。 
95.42 当 对 参数 N =23 调 用 函数 时 ， 为 练习 5.41 中 的 函数 画 出 一 棵 与 图 5-15 对 应 的 树 。 

5.43” 男 出 N 与 练习 5.41 中 的 函数 计算 P，(0<N<1024) 所 做 的 递归 调用 的 数目 之 间 的 曲线 图 
(要 完成 计算 ,你 的 程序 中 的 每 一 个 N 的 取 值 都 从 零 开始 )。 

5.44 编写 一 个 函数 ， 使 用 自 底 向 上 的 动态 规划 来 计算 以 下 递归 方程 所 定义 的 Ch 的 值 。 


1 
Cy = N+ 方 YC +Cyx), N>18.Co =1 
N fen 


5.45 编写 一 个 函数 ， 使 用 自 顶 向 下 的 动态 规划 来 求解 练习 5.44。 
05.46 当 对 参数 N =23 调 用 函数 时 ， 为 练习 5.45 中 的 函数 画 出 一 棵 与 图 5-15 相 对 应 的 树 。 
5.47 画 出 N 与 练习 $.45 中 的 国 数 计 算 Cw (0 和 N 和 1024) 而 做 的 递归 调用 的 数目 之 间 的 曲线 图 
(要 完成 计算 ， 你 的 程序 中 的 每 一 个 N 的 取 值 都 从 零 开 始 )。 
>5.48 ”根据 图 5-16 中 的 数据 项 ， 给 出 程序 5.13 中 调用 knap(17) 时 所 计算 的 maxKnown 与 
itemKnown 的 数组 中 的 内 容 。 
>5.49 假设 要 按照 数据 项 的 大 小 递减 的 顺序 来 考虑 ， 画 出 与 图 5-18 对 应 的 树 。 
。5.50 证 明 性 质 5.3。 
05.51 使 用 程序 5.12 的 自 底 向 上 的 动态 规划 版 本 ， 编 写 一 个 求解 背包 问题 的 函数 。 
“5.52 ”使 用 自 顶 向 下 的 动态 规划 方法 ， 编 写 一 个 求解 背包 问题 的 函数 。 但 使 用 递归 求解 方法 ， 
计算 要 基于 在 背包 中 包括 特定 项 的 最 优 数 目 ， 以 及 基于 (递归 地 ) 知道 没有 那个 特定 项 时 打 
包 背 包 的 最 优 方案 。 
25.53 使 用 练习 5.52 中 所 述 的 递归 求解 的 自 底 向 上 的 动态 规划 方法 ， 编 写 一 个 求解 背包 问题 的 
函数 。 
。5.54 使 用 动态 规划 求解 练习 5.4。 记 录 你 保存 的 函数 调用 的 总 数 。 


N 
5.55 编写 一 个 程序 ， 使 用 自 项 向 下 的 动态 规划 来 计算 二 项 系数 外， 基于 以 下 递归 公式 
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5.4 树 


树 是 一 种 数学 上 的 抽象 ， 在 算法 的 设计 与 分 析 中 起 到 了 核心 作用 ， 原 因 如 下 ， 

* 我 们 使 用 树 来 描述 算法 的 动态 性 质 。 

* 我 们 创建 并 使 用 显 式 的 数据 结构 ， 这 些 数据 结构 都 是 树 的 具体 实现 。 

我 们 已 经 看 到 上 述 用 法 的 例子 。 我 们 为 第 1 章 的 连通 性 问题 设计 了 基于 树 结构 的 算法 ， 并 
且 在 5.2 节 、5.3 节 我 们 使 用 树 结构 描述 了 递归 算法 的 调用 结构 。 

我 们 在 日 常生 活 中 经 常 遇 到 树 一 一 这 是 一 个 熟悉 的 基本 概念 。 例 如 ， 许 多 人 用 家 族 树 来 
追踪 祖先 或 后 代 信息 ， 就 如 我 们 将 看 到 的 ， 我 们 的 许多 术语 都 是 源 于 树 的 这 种 用 法 。 另 一 个 
树 的 例子 可 在 运动 联赛 的 组 织 中 找到 ， 该 用 法 由 Lewis Carroll 等 人 研究 。 第 三 个 例子 就 是 一 个 
大 型 公司 中 的 组 织 机 构图 ， 该 用 法 对 刻画 分 治 算法 的 层次 分 解 具有 启示 作用 。 第 四 个 例子 就 
是 把 英语 句子 转换 为 组 成 部 分 的 词法 分 析 树 ， 如 第 五 部 分 所 讨论 的 那样 ， 这 一 类 树 与 计算 机 
语言 的 处 理 密切 相关 。 图 5-19 给 出 了 一 个 树 的 典型 例子 一 -这 标 树 描述 了 本 书 的 结构 。 此 外 ， 
我 们 在 本 书 中 还 接触 到 大 量 树 的 应 用 的 其 他 例子 。 


algorithms 
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图 5-19 树 
注 : 这 棵 树 描述 了 本 书 结构 中 的 “部 分 "、“ 章 "、“ 节 "。 对 每 一 个 实体 ， 部 有 一 个 节点 。 每 一 个 节点 通过 向 下 
的 链接 连接 它 的 组 成 成 分 ， 通 过 向 上 的 链接 连接 它 属于 的 更 大 的 部 分 。 

在 计算 机 的 应 用 程序 中 ， 其 中 我 们 最 为 熟悉 的 树 的 用 法 就 是 文件 系统 的 组 织 。 我 们 把 文 
件 放 在 目录 (有 了 时 也 称 为 文件 夹 ) 中 ， 这 些 目录 递归 定义 为 目录 与 文件 的 序列 。 这 种 递归 定 
义 再 次 反映 出 一 个 自然 的 递归 分 解 ， 而 且 与 某 种 类 型 的 树 的 定义 相同 。 

有 许多 种 树 ， 而 且 理 解 树 的 抽象 表示 与 用 它 来 表示 应 用 的 具体 表示 之 间 的 区 别 是 极其 重 
要 的 。 因 此 ， 我 们 将 详细 考虑 不 同类 型 的 树 以 及 它们 的 表示 。 我 们 通过 把 树 定 义 成 抽象 的 对 
象 ， 并 引入 大 量 基 本 的 相关 术语 来 开始 我 们 的 讨论 。 我 们 将 按照 所 考虑 的 树 的 通用 性 的 递减 
顺序 非 形式 地 讨论 各 种 不 同类 型 的 树 : 

“ 树 。 

。 有 根 树 。 

。 有 序 树 。 

*M 又 树 与 二 又 树 。 

在 非 形式 的 讨论 树 的 一 些 概念 之 后 ， 我 们 转向 树 的 形式 定义 ， 并 考虑 它 的 表示 法 与 应 用 。 
图 5-20 显 示 出 许多 我 们 讨论 并 定义 的 基本 概念 。 

一 棵 树 就 是 满足 某 种 要 求 的 节点 与 边 的 一 个 非 空 集 合 。 一 个 顶点 就 是 一 个 简单 对 象 (也 
称 作 是 节点 ) ， 它 可 以 有 个 名 字 ， 并 且 可 以 携带 其 他 相关 联 的 信息 ， 一 条 边 就 是 两 个 节点 之 间 
的 连接 。 树 中 的 一 条 路 径 就 是 一 个 不 同 节点 的 序列 ， 在 序列 中 连续 的 节点 由 树 中 的 边 连接 。 
定义 一 棵 树 的 性 质 就 是 任意 两 个 节点 只 有 一 条 惟一 的 路 径 。 如 果 在 几 对 节点 中 有 不 止 一 条 的 
路 径 ， 或 者 在 几 对 节点 中 没有 路 径 ， 那 样 我 们 得 到 一 个 图 ， 而 不 能 得 到 一 棵 树 。 一 组 不 相交 
的 树 称 为 森林 。 

一 棵 有 根 树 就 是 我 们 在 其 中 指派 一 个 节点 作为 树 的 根 节点 的 树 。 在 计算 机 科学 中 ， 通 常 
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的 树 是 指 有 根 树 ， 同 时 使 用 术语 自由 树 来 表示 前 几 段 中 所 提 到 的 更 一 般 的 结构 。 在 一 棵 有 根 
树 中 ， 任 何 节 点 都 是 由 该 节点 及 其 下 面 的 节点 组 成 的 子 树 的 根 节点 。 


internal node root 
Pr - 
external node _ 


图 5-20 树 的 类 型 
注 : 这 些 图 是 二 叉 树 (左上 图 )、 三 又 树 (右上 图 )、 有 根 树 (左下 图 ) 和 自由 树 〈 右 下 图 ) 的 例子 。 


根 节点 与 树 中 其 他 节点 之 间 只 有 一 条 路 径 。 这 一 定义 玛 含 着 边 是 没有 方向 的 ， 通 常 认为 ， 
边 是 远离 根 节 点 还 是 指向 根 节点 取决 于 应 用 问题 。 我 们 通常 把 根 节 点 放 在 顶端 来 画 有 根 树 
(尽管 这 种 惯例 已 开始 看 起 来 并 不 自然 )。 如 果 x 在 一 条 从 y 到 根 节点 的 路 径 上 (也 就 是 说 ， 如 
果 y 在 节点 x 的 下 面 ， 并 与 x 相连 的 路 径 不 通过 根 节点 ， 我 们 就 说 节点 y 在 节点 x 的 下 面 ， 或 x 在 y 
的 上 面 ) 。 每 一 个 节点 (除了 根 节点 ) 都 只 有 一 个 节点 在 它 的 上 面 ， 这 个 节点 称 作 父 节 点 
(parent) ， 而 直接 在 其 下 面 的 节点 称 为 子 节点 (children)。 我 们 有 时 需要 对 祖父 节点 
(grandparent) 或 兄弟 节点 (sibling) 进行 研究 ， 以 类 比 家 族 树 。 

没有 子 节点 的 节点 称 为 叶 节 点 (leave) 或 终结 节点 (terminal node)。 与 后 一 种 名 称 用 法 
相对 应 ， 至 少 有 一 个 子 节点 的 节点 称 为 非 终 结 节点 (nonterminal node)。 我 们 已 经 在 本 章 看 到 
了 区 分 这 些 不 同类 型 节点 的 应 用 的 例子 。 我 们 使 用 树 来 表达 递归 算法 的 调用 结构 (比如 ， 见 
图 5-14) 时 ， 非 终结 节点 〈 环 ) 表示 带 有 递归 调用 的 函数 调用 ， 终 结 节 点 (方形 ) 表示 没有 
递归 调用 的 函数 调用 。 | 

在 特定 的 应 用 中 ， 每 一 个 节点 的 子 节点 排列 的 顺序 是 有 重要 意义 的 ， 而 在 另外 一 些 应 用 
:中 ， 其 意义 却 并 不 大 。 一 棵 有 序 树 就 是 其 中 每 一 个 节点 的 子 节点 的 顺序 被 确定 的 有 根 树 。 有 
序 树 是 一 种 很 自然 的 表示 。 比 如 说 ， 在 画 一 棵 树 时 我 们 按照 某 种 次 序 放置 子 节 点 。 正 如 我 们 
将 看 到 的 ， 当 我 们 考虑 在 一 台 计 算 机 中 表示 树 时 ， 这 一 区 别 就 变 得 很 有 意义 了 。 

如 果 每 一 个 节点 必须 有 一 个 特定 数目 的 子 节点 并 以 特定 的 次 序 出 现 ， 我们 就 得 到 一 棵 MM 
叉 树 。 在 这 种 树 中 ， 经 常 要 把 没有 子 节 点 的 节点 定义 为 特殊 的 外 部 节点 。 然 后 ， 外 部 节点 可 
以 作为 哑 元 节点 ， 由 那些 没有 确定 数目 子 节点 的 节点 引用 。 特 别 是 ， 最 简单 的 M 又 树 类 型 就 
是 二 叉 树 。 一 棵 二 叉 树 就 是 由 两 种 类 型 的 节点 组 成 的 有 序 树 : 没有 子 节点 的 外 部 节点 ， 只 有 
两 个 子 节点 的 内 部 节点 。 由 于 每 一 个 内 部 节点 的 子 节点 都 是 有 次 序 的 ， 所 以 我 们 称 它们 为 内 
部 节点 的 左 子 节点 与 右 子 节点 : 每 一 个 内 部 节点 都 必须 有 左 子 节点 与 右 子 节点 ， 尽 管 其 中 一 
个 或 两 个 可 能 是 外 部 节点 。M 又 树 中 的 一 个 叶 节 点 是 一 个 内 部 节点 ， 它 们 的 子 节点 全 部 都 是 
外 部 节点 。 

以 上 就 是 基本 的 术语 ， 接 下 来 ， 我 们 按照 通用 性 递增 的 顺序 考虑 以 下 各 种 树 的 形式 定义 、 
表示 及 应 用 : 


ea 一 
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。 二 又 树 与 M 又 树 。 

*。 有 序 树 。 

。 有 根 树 。 

。 自 由 树 。 

从 最 特定 的 抽象 结构 开始 ， 我 们 将 能 够 非常 详尽 地 考虑 具体 的 表达 。 

定义 5.1 ”二叉树 是 外 部 节点 或 内 部 节点 ， 与 一 对 分 别 被 称 作 该 节点 的 左 子 树 与 右 子 树 的 
二 又 树 相 连 。 
| 该 定义 清楚 表明 二 又 树 本 身 是 抽象 的 数学 概念 。 但 我 们 用 计算 机 表示 工作 时 ， 我 们 就 在 
处 理 这 一 个 抽象 的 具体 实现 。 这 种 情形 与 用 浮 点 数 表示 实数 、 用 int 表 示 整 数 等 等 类 似 。 当 我 
们 画 根部 有 节点 的 一 棵 树 时 ， 其 根 节点 通过 边 与 左边 的 左 子 树 及 右边 的 右 子 树 相 连 ， 我 们 就 
选择 一 种 惯用 的 具体 表示 。 有 许多 不 同 的 方法 表示 二 又 树 (例如 ， 见 练习 5.62) ， 二 又 树 起 初 
很 让 人 惊奇 ， 但 是 在 给 定 定义 的 抽象 本 质 后 ， 可 以 预想 其 反映 的 结果 。 

当 我 们 实现 那些 使 用 和 操纵 二 又 树 的 程序 时 ， 我 们 最 常 使 用 的 具体 表示 就 是 一 个 内 部 节 
点 带 有 两 个 链接 (包括 右 链 接 与 左 链接 ) 的 结构 ( 见 图 5-21)。 这 些 结构 与 链表 相似 ， 但 它们 
的 每 一 个 节点 有 两 个 链接 ， 而 不 是 一 个 。 空 链接 与 外 部 节点 相对 应 。 特 别 地 ， 我 们 将 一 个 链 
接 加 到 来 自 3.3 节 的 标准 链表 的 表示 上 ， 如 下 : 


typedef struct node *]link; 
struct node { Item item; link 1, r; }; 


这 是 定义 5.1 的 C 语 言 代码 。 链 接 是 对 节点 的 引用 ， 节 点 由 数据 项 (item) 和 一 对 链接 (link) 组 
成 。 因 此 ， 我 们 可 以 用 一 个 诸如 x = x->1 的 指针 引用 来 实现 “ 移 到 左 子 树 ” 的 抽象 操作 。 


A 
5 


图 5-21 二 叉 树 表示 


注 : 二 又 树 的 标准 表示 使 用 带 有 两 个 链接 的 节点 : 左 链接 指向 左 子 树 ， 右 链接 指向 右 子 树 ， 空 链 对 应 外 部 节点 。 


这 种 标准 表示 人 允许 高 效 地 实现 在 树 中 从 根 节点 下 移 的 调用 操作 ， 但 是 不 能 高 效 地 实现 在 树 
中 从 子 节点 到 其 父 节 点 的 上 移 的 调用 操作 。 对 于 要 求 这 类 操作 的 算法 ， 我 们 可 以 给 每 一 个 节 
点 添加 指向 父 节点 的 第 三 个 链接 。 这 一 可 供 选 择 的 方案 与 双向 链表 类 似 。 利 用 链表 ( 见 图 3-6)， 
我 们 使 树 节 点 保持 在 数组 中 ， 并 在 一 些 情 形 中 使 用 索引 代替 指针 作为 链接 。 在 12.7 节 中 研究 一 
个 类 似 实 现 的 特定 例子 。 使 用 其 他 二 又 树 表示 某 些 特定 的 算法 ， 在 第 9 章 中 尤其 值得 注意 。 

由 于 可 能 存在 各 种 不 同 的 表示 ， 我 们 也 许可 以 开发 出 一 个 二 又 树 ADT， 它 把 我 们 所 要 进 
行 的 重要 操作 封装 进去 ， 并 且 将 这 些 操 作 的 使 用 与 实现 分 离开 来 。 我 们 在 本 书 中 不 采取 这 一 
途径 ， 因 为 ， 

。 我 们 通常 使 用 的 都 是 双向 链表 的 表示 。 

。 我们 使 用 树 来 实现 更 高 级 ADT， 并 将 重点 放 在 这 些 部 分 。 

* 我 们 使 用 效率 依靠 于 特定 表示 的 算法 一 一 一 个 可 能 在 ADT 中 丢失 的 事实 。 
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这 些 原因 也 是 我 们 在 数组 与 链表 的 具体 表示 时 使 用 的 类 似 原 因 。 在 图 5-21 中 描述 的 二 又 
树 表 示 是 一 个 基础 的 工具 ， 我 们 现在 把 它 加 到 这 个 短 链表 中 。 

对 于 链表 ， 我 们 从 考察 基本 的 操作 开始 ， 这 些 操作 有 插入 或 删除 节点 ( 见 图 3-3 和 图 3-4)。 
对 于 二 叉 树 的 标准 表示 ， 这 样 的 操作 并 非 必 要 的 基本 要 素 ， 因 为 有 第 二 个 链接 存在 。 如 果 要 
删除 二 又 树 的 一 个 节点 ， 必 须 弄 清 基本 问题 ， 就 是 节点 消失 后 我 们 可 能 有 两 个 子 节点 要 处 理 ， 
但 只 有 一 个 父 节 点 要 处 理 。 于 是 可 有 三 个 自然 的 操作 ， 在 底部 插入 一 个 新 的 节点 (用 一 个 新 
布点 的 链接 代替 null 链 接 ) ， 删 除 一 个 叶 节 点 (用 一 个 null 链 接 代 赫 与 它 的 链接 ) ， 创建 一 个 
新 的 根 节点 把 两 棵 树 组 合成 一 棵 树 ， 其 中 根 节点 的 左 链 接 指 向 一 棵 树 ， 右 链接 指向 另 一 棵 树 。 
当 要 操作 二 又 树 时 ， 大 量 使 用 这 些 操作 。 

定义 5.2 ”M 叉 树 或 者 是 一 个 外 部 节点 ， 或 者 是 连接 到 M 棵 有 序 树 的 一 个 内 部 节点 ， 这 些 
树 也 是 1M- 又 树 。 

我 们 通常 把 MM 又 树 中 的 节点 表示 为 M 个 已 命名 链接 的 结构 (就 如 二 叉 树 中 的 一 样 ) 或 者 表 
示 为 M 个 链接 的 数组 。 例 如 ， 第 15 章 中 ， 我 们 考 虚 三 又 (或 三 重 的 ) 树 ， 其 中 使 用 三 个 命名 
为 左 、 中 、 右 链接 的 结构 。 每 一 个 结构 对 于 相关 联 的 算法 都 有 特定 的 含义 。 否 则 ， 使 用 数组 
保存 链接 就 是 恰当 的 ， 因 为 M 的 值 是 固定 的 ， 尽 管 我 们 将 看 到 ， 在 使 用 这 样 一 种 表示 时 我 们 
必须 关注 对 空间 的 过 度 占用 。 

定义 5.3” 树 (也 称 为 有 序 树 ) 是 连接 到 不 相交 树 序列 的 一 个 节点 (也 称 为 根 节点 )。 这 
样 的 树 序列 称 为 森林 。 

有 序 树 与 W 又 树 的 区 别 在 于 : 有 序 树 中 的 节点 可 以 有 任何 数目 的 子 节点 ， 而 MM 又 树 的 节点 
只 有 AM 个 子 节 点 。 我 们 有 时 根据 上 下 文 使 用 一 般 树 这 一 术语 把 有 序 树 从 M 又 树 中 区 别 开 来 。 

因为 有 序 树 中 每 一 个 节点 可 以 有 任意 多 个 链接 ， 因 此 很 自然 就 考虑 使 用 链接 ， 而 不 是 使 
用 数组 ， 来 确定 通 向 节点 的 子 节 点 的 链接 。 图 5-22 就 是 这 种 表示 的 例子 。 在 这 个 例子 中 ,我 
们 很 清楚 地 看 到 每 一 个 节点 包含 了 两 个 链接 ， 一 个 用 于 连接 到 它 的 兄弟 节点 ， 另 一 个 用 于 它 
的 子 布 点 的 链接 。 


Ml 





图 5-22 树 的 表示 


注 : 通过 把 每 一 节点 的 子 节 点 保 表 在 链表 中 来 表示 一 哥 有 序 树 ， 相 当 于 把 它 表 示 为 一 哥 二 又 树 。 在 右上 图 显示 
了 一 个 在 左上 方 的 树 的 链表 孩子 表示 法 ， 带 有 节点 的 右 链接 所 实现 的 表 ， 并 且 每 一 个 节点 的 左 链接 指向 其 
子 节 点 的 链表 中 的 第 一 个 节点 。 在 右 下 图 显示 了 一 个 对 上 方 图 进行 细微 的 重新 安排 的 版 本 ， 并 且 非 常 清晰 
地 表示 左下 方 的 二 又 树 。 也 就 是 说 ， 在 表示 树 时 我 们 可 以 考虑 二 又 树 。 
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性 质 5.4 在 二 又 树 与 有 序 森 林 之 间 ， 存 在 一 一 对 应 的 关系 。 

这 种 对 应 关系 在 图 5$-22 中 详细 描述 ， 通 过 使 每 一 个 节点 的 左 链接 指向 最 左 的 子 节 点 ， 使 
每 一 个 节点 的 右 链 接 指 向 右边 的 兄弟 节点 ， 我 们 可 以 把 任何 一 棵 森林 表示 为 一 棵 二 又 树 。 图 

定义 5.4 ”一 棵 有 根 树 (或 无 序 树 ) 是 一 个 连接 到 有 根 树 组 成 的 多 集 的 一 个 节点 ( 称 为 根 
节点 ) 《这样 的 多 集 称 为 无 序 森 林 ) 。 

我 们 在 第 1 章 中 遇 到 的 关于 连通 性 问题 的 树 就 是 无 序 树 。 这 一 类 树 可 以 被 定义 为 有 序 树 ， 
其 中 节点 的 子 节点 被 考虑 的 顺序 是 不 重要 的 。 我 们 同样 选择 把 无 序 树 定义 为 由 节点 间 父 子 关 
系 组 成 的 集合 。 这 一 选择 似乎 与 我 们 正在 考察 的 递归 结构 没有 关系 ， 但 它 却 是 对 抽象 观念 的 
真实 具体 的 表示 。 

我 们 可 以 在 计算 机 中 选择 用 一 棵 有 序 树 来 表示 无 序 树 ， 并 认识 到 许多 不 同 的 有 序 树 或 许 
表示 了 同一 棵 无 序 树 。 实 际 上 ， 反 过 来 要 确定 是 否 两 个 不 同 的 有 序 树 表示 同一 棵 无 序 树 ( 树 
同 构 问 题 ) 是 一 个 难以 解决 的 问题 。 

最 一 般 的 树 类 型 是 没有 根 节点 区 别 的 树 。 例 如 ， 在 第 1 章 的 连通 性 算法 导致 的 生成 树 就 有 
这 一 性 质 。 要 恰当 地 定义 无 根 树 、 无 序 树 或 自由 树 ， 我 们 就 要 从 图 的 定义 开始 。 

定义 5.5 ”一 个 圆 由 节点 集合 和 连接 不 同 节点 对 的 边 的 全 合 组 成 (任何 一 对 节点 至 多 有 一 
条 边 相连 ) 。 

我 们 可 以 想象 从 某 个 节点 开始 ， 沿 着 一 条 边 到 这 条 边 的 构成 节点 ， 然 后 沿 着 一 条 边 从 一 
个 节点 到 另 一 个 节点 ， 以 此 类 推 。 按 照 这 种 方式 ， 从 一 个 节点 到 另 一 个 节点 的 边 的 序列 〈 且 
没有 任何 节点 出 现 两 次 ) 称 为 商 单 路 径 。 如 果 存 在 一 条 简单 路 径 连接 任何 节点 对 ， 则 称 该 图 
是 连通 的 。 开 头 与 末尾 节点 相同 的 一 条 简单 路 径 称 为 环 路 (cycle)。 

每 棵 树 都 是 一 个 图 ， 但 哪 一 些 图 是 树 呢 ? 如 果 一 个 图 满足 以 下 四 个 条 件 之 一 ， 我 们 就 认 
为 它 是 树 : 

*。G 有 AN-1 条 边 ， 并 且 没 有 环 路 。 

*G 有 N 一 1 条 边 ， 并 且 是 连通 的 。 

*。 只 有 一 条 简单 路 径 连 接 G 中 的 每 一 对 节点 。 

"G 是 连通 的 ， 但 在 任意 一 条 边 被 删除 后 不 再 保持 连通 。 

上 述 条 件 的 任意 一 条 对 于 证 明 其 他 三 个 条 件 都 是 充 要 条 件 。 形 式 地 说 ， 我 们 应 该 挑选 其 
中 一 个 条 件 作为 自由 树 的 定义 。 非 形式 地 说 ， 我 们 应 该 让 这 些 条件 都 用 于 定义 。 

我 们 简单 地 把 一 个 自由 树 表示 为 边 的 集合 。 如 果 选 择 把 一 个 自由 树 表示 为 无 序 树 、 有 序 
树 其 至 二 又 树 ， 一 般 而 言 ， 需 要 认识 到 表示 一 个 自由 树 有 许多 不 同 的 方法 。 

树 的 抽象 概念 经 常 出 现 ， 在 这 一 节 中 所 讨论 的 区 别 极 其 重要 ， 因 为 了 解 不 同 树 的 抽象 常 
常 是 为 给 定 问题 寻找 有 效 算法 和 相应 数据 结构 的 重要 成 分 。 我 们 常常 直接 用 树 的 具体 表示 ， 
而 不 考虑 特定 的 抽象 ， 但 我 们 也 常常 因为 使 用 恰当 的 树 抽象 而 受益 ， 由 此 再 去 考虑 各 种 不 同 
的 具体 表示 。 我 们 将 在 本 书 中 看 到 这 个 过 程 的 大 量 例子 。 

在 讨论 算法 与 实现 之 前 ， 我 们 先 考 虑 一 些 树 的 基本 数学 性 质 ， 这 些 性 质 将 在 树 算 法 的 设 
计 与 分 析 中 用 到 。 
练习 
>5.56 作为 有 根 树 与 二 又 树 ， 给 出 图 5-20 中 的 自由 树 的 表示 。 

“5.57 在 表示 图 5-20 中 的 自由 树 为 有 序 树 ， 有 多 少 种 不 同 的 办 法 ? 
>5.58 画 出 三 棵 与 图 5-20 中 的 有 序 树 同 构 的 有 序 树 。 也 就 是 说 ， 你 必须 能 够 通过 交换 子 节点 来 
将 这 四 棵 树 相 互 转换 。 
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05.59 假设 有 树 包含 一 些 数据 项 ，eq 是 为 这 些 数 据 项 定义 的 。 编 写 一 个 递归 程序 来 删除 二 又 
树 中 所 有 与 给 定数 据 项 相等 的 数据 项 的 叶 节 点 ( 见 程序 5.5)。 

25.60 改变 用 于 找 出 数组 中 最 大 值 〈( 见 程序 5.6) 分 治 法 函数 ， 把 数组 分 解 为 个 部 分 ， 每 部 分 
的 大 小 至 多 差 1， 递 归 地 找到 每 一 部 分 的 最 大 值 ， 再 返回 多 个 局 部 最 大 值 中 的 最 大 值 。 

5.61 ”对 于 11 个 元 素 的 数组 ， 画 出 在 练习 5.60 中 提示 的 递归 构造 中 使 用 的 上 = 3 与 & = 4 所 对 应 
的 3 叉 树 和 4 又 树 ( 见 图 5-6)。 

05.62 二 又 树 与 二 进 制 字符 串 等 价 ， 二 进 制 字符 串 中 0 位 比 1 位 多 一 个 ， 由 于 这 个 额外 的 约束 ， 
在 任何 位 置 k， 严 格 出 现在 k 的 左边 的 0 位 的 个 数 不 大 于 严格 出 现在 k 的 左边 的 1 位 的 个 数 。 一 
棵 二 又 树 或 是 0 或 两 个 这 样 的 字符 串 连 接 在 一 起 ， 前 面 是 1。 画 出 与 下 面 的 字符 串 相 对 应 的 二 
又 树 : 


1110010110001011000. 


25.63 有 序 树 等 价 于 平衡 的 圆 括 号 字符 串 ， 一 棵 有 序 树 或 者 为 空 或 是 由 圆 括号 包围 的 有 序 树 

的 序列 。 画 出 与 下 面 字符 串 相 对 应 的 有 序 树 
((C)(C(G)(C())())(C)()())) 

“…5.64 ”编写 一 个 程序 确定 介 于 0 与 N-1 之 间 的 整数 的 两 个 数组 是 否 表示 同 构 的 无 序 树 ， 当 被 解 
释 为 带 有 在 0 与 N-1 之 间 编 号 的 节点 的 树 (就 如 第 1 章 那样 ) 中 的 父 - 子 链接 时 。 也 就 是 说 ， 你 
的 程序 必须 确定 是 否 存在 给 一 棵 树 中 节点 编号 方法 ， 满 足 一 棵 树 的 数组 表示 与 另 一 棵 树 的 数 
组 表示 相同 。 

“… 5.65 编写 一 个 程序 确定 两 个 二 又 树 是 否 表示 同 构 无 序 树 。 

>5.66 画 出 所 有 能 由 边 集 0-1、1-2、1-3、1-4、4-5 所 定义 树 的 所 有 表示 的 有 序 树 。 

“5.67 证 明 : 如 果 一 个 包含 N 个 节点 的 连通 图 有 删除 任何 边 就 使 图 不 连通 的 性 质 ， 则 该 图 有 N 一 1 
条 边 ， 并 且 没 有 环 路 。 


5.5 树 的 数学 性 质 


在 开始 考虑 树 处 理 算 法 之 前 ， 我 们 通过 考虑 树 的 很 多 基本 性 质 继续 在 数学 方面 的 讨论 。 
我 们 把 重点 放 在 二 又 树 上 ， 因 为 我 们 在 本 书 中 经 常 要 用 到 它们 。 深 刻 理解 它们 的 基本 性 质 ， 
将 为 我 们 很 好 地 理解 遇 到 的 不 同 算法 的 性 能 特征 打下 基础 ， 不 仅仅 是 那些 我 们 使 用 二 又 树 作 
为 显 式 数据 结构 的 算法 ， 而 且 还 有 分 治 递归 算法 以 及 其 他 类 似 的 应 用 。 

性 质 5.5 一 棵 有 AN 个 内 部 节点 的 二 又 树 有 N + 1 个 外 部 节点 。 

我 们 通过 归纳 法 来 证 明 这 个 性 质 一 棵 有 0 个 内 部 节点 的 二 叉 树 有 1 个 外 部 节点 ， 由 此 妆 
N= 0 时 性 质 成 立 。 当 N > 0 时 ， 任 何 有 XN 个 内 部 节点 的 二 又 树 ， 就 有 K 个 内 部 节点 在 它 的 左 子 树 
上 ， 有 N 一 1 一 k 个 内 部 节点 在 它 的 右 子 树 上 ， 基 中 x 介 于 0 与 N 一 1 之 间 ， 因 为 根 节 点 是 一 个 内 部 
节点 。 通 过 归纳 假设 ， 左 子 树 有 KK + 1 个 外 部 节点 ， 右 子 树 有 N 一 k 个 外 部 节点 ， 总 计 N + 1 个 外 
部 节点 。 国 

性 质 5.6 ”一 棵 有 NN 个 内 部 节点 的 二 又 树 有 2N 个 链接 : N 一 1 个 链接 到 内 部 节点 ，N + 1 个 链 
接 到 外 部 节点 。 

在 任何 有 根 树 中 ， 除 了 根 节点 ， 每 个 节点 都 有 惟一 的 一 个 父 节点 ， 每 一 条 边 连接 一 个 节 
点 到 它 的 父 节 点 上 ， 所 以 有 N 一 1 个 链接 与 内 部 节点 连接 。 类 似 地 ，N + 1 个 外 部 节点 的 每 一 个 
都 有 一 个 连接 到 惟一 父 节点 的 链接 。 国 

许多 算法 的 性 能 特征 不 只 是 依赖 于 相关 树 的 节点 数目 ， 而 且 依赖 于 各 种 结构 性 质 。 
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定义 5.6 在 一 棵 树 中 节点 的 层 数 比 其 父 节点 的 层 数 委 高 一 层 ( 根 节点 在 第 0 层 )， 树 的 高 
度 (height) 就 是 树 中 节点 层 数 中 的 最 大 值 。 树 的 路 径 长 度 是 所 有 树 节 点 的 层 数 的 总 和 和 。 一 可 
二 又 树 的 内 部 路 径 长 度 是 树 的 所 有 内 部 节点 的 层 数 的 总 和 ，_ 棵 二 又 树 的 外 部 路 径 长 度 是 机 
的 所 有 外 部 节点 的 层 数 的 总 和 。 

一 种 计算 树 的 路 径 长 度 的 方便 方法 ， 就 是 对 于 所 有 的 &， 来 k 与 在 层 数 k 上 节点 的 数目 的 和 
积 的 和 。 

这 些 数量 同样 有 简单 的 递归 定义 ， 这 些 定义 直接 来 自 树 与 二 又 树 的 递归 定义 。 例 如 ， 桂 
的 高 度 比 树 根 的 子 树 的 高 度 的 最 大 值 还 大 1， 有 AN 个 节点 的 树 的 路 径 长 度 就 是 树 根 的 子 树 的 路 
径 长 度 的 总 和 加 N- 1。 这 些 量 同 样 与 递归 算法 的 分 析 直 接 相关 。 例 如 ， 对 于 许多 递归 计算 ， 
相应 树 的 高 度 正好 是 递归 深度 的 最 大 值 ， 或 者 是 需要 支持 计算 的 栈 的 大 小 。 

性 质 5.7 任何 带 有 N 个 内 部 节点 的 二 又 树 的 外 部 路 径 长 度 比 内 部 路 径 长 度 大 2N， 

我 们 通过 归纳 法 来 证 明 这 个 性 质 ， 但 另 一 种 证 明 方法 是 有 启发 性 的 该 方法 对 性 质 5.6 同 
样 有 效 ) 。 注 意 到 任何 二 又 树 都 能 通过 以 下 的 过 程 创建 。 从 包含 一 个 外 部 节点 的 二 又 树 开始 ， 
然后 重复 以 下 步骤 N 次 ; 挑选 一 个 外 部 节点 ， 并 且 用 把 两 个 外 部 节点 作为 子 节点 的 一 个 新 内 部 
节点 来 代替 该 外 部 节点 。 如 果 所 选 的 外 部 节点 的 层 数 是 E， 内 部 路 径 长 度 增加 了 KE， 但 是 外 部 
路 径 长 度 增加 了 k+2 (去 掉 了 一个 层 数 为 k 的 外 
部 节点 ， 增 加 了 两 个 层 数 为 t+ 1 的 外 部 节点 )。 
整个 过 程 从 内 部 路 径 长 度 和 外 部 路 径 长 度 都 为 0 
的 树 开始 ， 对 于 N 个 步 又 的 每 一 步 ， 外 部 路 径 长 
度 比 内 部 路 径 长 度 多 增加 2。 加 

性 质 5.8 带 有 N 个 内 部 节点 的 二 又 树 的 高 度 
至 少 是 lg N， 至 多 是 N 一 1。 

最 坏 情况 是 只 有 一 个 时 节点 的 退化 树 ，N_1 
个 链接 从 根 节点 到 叶 节点 ( 见 图 5-23) ， 最 好 的 
情况 是 平衡 树 ， 在 每 一 个 层 数 i 上 有 2: 个 内 部 节 
点 (底部 层 数 除 外 ) ( 见 图 5-23) ， 如 果 高 度 是 有 
因为 有 N + 1 个 外 部 节点 ， 那 么 我 们 必定 有 下 式 
成 立 

2"1I<N+l< 2 

这 个 不 等 式 隐 含 着 我 们 阐述 的 性 质 ， 最 好 情 

况 的 高 度 正好 等 于 向 上 取 整 所 得 的 整数 lg N。 
国 

性 质 5.9 带 有 N 个 内 部 节点 的 二 又 树 的 内 部 
路 径 长 度 至 少 是 Nlg(N/4) ， 至 多 是 NON_1]12。 本 a 

最 坏 情况 和 最 好 情况 是 由 在 性 质 5.8 的 讨论 。 时 ”2 三 棵 都 有 10 个 内 部 节点 的 一 叉 树 


| 5.23 RA 得 到 的 。 ' 注 : 在 上 面 显 示 的 二 又 树 的 高 度 是 7， 内 部 路 径 长 度 
和 在 图 5-23 中 描述 的 同一 棵 树 得 到 的 。 最 坏 情况 “3 让 训 如 顾全 





的 树 的 内 部 路 径 长 度 是 0+1+2+…+ (N 一 1) = 树 有 10 个 内 部 节点 ， 高 度 为 4， 内 部 路 径 长 度 为 
N(N 一 1M2。 最 好 情况 的 树 有 (CN + 了 DD 个 外 部 节点 ， 19， 外 部 路 径 长 度 为 39 (没有 带 10 个 节点 的 二 又 


高 度 不 超过 [lg 入 |。 把 这 些 数 乘 起 来 并 应 用 性 质 可 有 比 六 二 数 本 要 小 的 全) 这 和 化 的 二 中 寺 
有 10 个 内 部 节点 , 高 度 为 10, 内 部 路 径 长 45 ， 
57， 我 们 得 到 界限 (N+ Dll8N]-2N < N lg (N/4)。 外 部 路 径 长 度 为 65 (没有 带 10 个 节点 的 二 又 树 有 


国 比 以 上 数量 更 大 的 值 )。 
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就 如 我 们 将 看 到 的 那样 ， 


二 叉 树 广泛 地 出 现在 计算 机 应 用 中 ， 而 且 当 二 又 树 完 全 平衡 


(或 接近 平衡 ) 时 性 能 最 佳 。 例 如 ， 我 们 用 于 描述 分 治 算法 的 树 ， 如 二 分 搜索 与 归并 排序 都 是 
( 见 练习 5.74) 性 能 最 佳 的 方法 。 在 第 9 章 与 第 13 章 ， 我 们 将 考察 基于 平衡 树 的 显 式 数据 结构 。 

树 的 基本 性 质 为 我 们 要 开发 一 些 用 于 求解 实际 问题 的 高 效 算法 提供 了 信息 。 对 于 我 们 将 
遇 到 的 特定 算法 的 更 详尽 分 析 ， 需 要 进行 复杂 的 数学 分 析 ， 虽 然 我 们 用 诸如 在 本 节 中 用 到 的 
简明 的 归纳 参数 ， 常 常 能 得 到 有 用 的 估计 。 在 后 面 章节 中 需要 时 ， 我 们 会 更 进一步 讨论 树 的 
数学 性 质 。 就 这 点 来 说 ， 我 们 准备 回 到 关于 算法 问题 上 来 。 


练习 


>5.68 在 一 棵 有 N 个 内 部 节点 的 M 又 树 中 有 多 少 个 外 部 节点 ?使 用 你 的 回答 来 给 出 要 表示 这 样 
的 树 所 需 的 内 存量 ， 假 设 每 一 个 链接 与 数据 项 需要 一 个 字 的 内 存 。 

5.69 给 出 有 N 个 内 部 节点 的 M 又 树 的 高 度 的 上 限 与 下 限 。 

05.70 给 出 有 N 个 内 部 节点 的 M 又 树 的 内 部 路 径 长 度 的 上 限 与 下 限 。 

5.71 给 出 有 N 个 节点 的 二 又 树 的 叶子 数目 的 上 限 与 下 限 。 

“5.72 证 明 ; 如 果 二 又 树 中 的 外 部 节点 的 层 数 之 差 为 常量 ， 那 么 该 树 高 度 是 O(log NN)。 

05.73 高 度 n > 2 的 斐 波 纳 契 树 (Fibonacci tree) 是 一 棵 二 又 树 ， 其 中 一 棵 子 树 是 高 度 为 一 1 的 


斐 波 纳 契 树 ， 另 一 子 树 是 高 度 为 呈 -2 的 斐 波 纳 契 树 。 


一 棵 高 度 为 0 的 斐 波 纳 契 树 是 一 个 外 部 节 


点 ! 一 棵 高 度 为 1 的 斐 波 纳 契 树 是 一 个 带 有 两 个 外 部 节点 为 子 节 点 〈 见 图 5-14) 的 内 部 节点 。 
给 出 高 度 为 "的 斐 波 纳 契 树 的 高 度 与 外 部 路 径 长 度 作 为 树 中 节点 个 数 N 的 函数 。 


5.74 


一 棵 带 有 N 个 节点 的 分 治 法 树 是 一 棵 根 节点 标 为 N 的 二 叉 树 ， 其 中 一 棵 子 树 中 是 


有 全 训 的 分 治 法 树 ， 另 一 棵 了 树 是 有 |“ 个 节点 的 分 治 法 树 (图 5-6 描 述 了 一 个 分 


治 树 ) 。 画 出 11、 
05.75 用 归纳 法 证 盟 个 分 治本 的 内 语言 
长 度 在 N lg N 与 Nlg N+ N 之 间 。 

5.76 一 棵 有 N 个 节点 的 合 治 法 树 ， 是 一 个 
根 节 点 标 为 的 二 叉 树 ， 其 中 一 棵 子 树 是 
有 [|N/21 个 节点 的 合 治 法 树 ， 另 一 棵 子 树 是 
有 [NN/21 个 节点 的 合 治 法 树 ( 见 练习 5.18)。 
画 出 11、15、16 和 23 个 节点 的 合 冶 法 树 。 
5.77 ”用 归纳 法 证 明 一 个 合 治 法 树 的 内 部 路 
径 长 度 在 N lg N 与 N lg N+N 之 间 。 

5.78 一 棵 完全 (complete) 二 又 树 就 是 所 
有 层 从 左边 到 右边 都 是 满 的 (可 能 除了 最 后 
一 层 之 外 )， 如 图 5-24 所 示 。 证 明 有 NN 个 节点 
的 一 棵 完全 二 叉 树 的 内 部 路 径 长 度 在 N lg N 
与 N lg N+ N 之 间 。 


5.6 树 的 遍历 


、16 和 23 个 节点 的 分 治 法 树 。 


注 : 当 外 部 节点 的 数目 是 2 的 矫 (上 图 ) 时 ， 完 全 


se 
(RR 


图 5-24 有 7 个 和 10 个 内 部 节点 的 完全 二 又 树 * 


二 又 树 中 
的 内 部 节点 都 在 同一 层 数 。 否 则 (下 图 ) 外 部 节点 出 现 
在 两 个 层 数 ， 其 中 在 次 底层 上 的 内 部 节点 在 外 部 节点 的 
左 方 。 


在 考虑 构造 二 叉 树 与 树 的 算法 之 前 ， 我 们 考虑 用 于 的 树 处 理 功 能 的 最 基本 算法 ， 树 的 遍 


历 ， 即 给 出 一 个 指向 树 的 指针 ， 我 们 打算 系统 地 访问 树 中 的 每 一 个 节点 。 


们 跟随 单一 链接 从 一 个 节点 移 到 下 一 个 节点 ， 然而， 对 于 树 来 说 我 们 要 做 如 何 访问 的 决定 ， 


因为 可 能 会 有 很 多 链接 可 以 使 用 。 
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我 们 从 考虑 二 又 树 的 过 程 开始 ， 对 于 链表 ， 我 们 有 两 个 基本 的 选项 〈 见 程序 5.5) : 处理 节 
点 ， 然 后 没 着 链表 访问 (在 这 种 情况 下 ， 我 们 按 顺 序 访问 节点 )， 或 者 沿 着 链表 ， 然 后 处 理 节 
点 (在 这 种 情况 下 ， 我 们 按 相反 顺序 访问 节点 )。 对 于 二 叉 树 ， 我 们 有 两 个 链接 ， 由 此 我 们 有 
三 种 基本 的 访问 节点 的 顺序 ， 

。 前 序 (preorder) ， 我 们 访问 该 节点 ， 然 后 访问 该 节点 的 左 子 树 和 右 子 树 ; 

。 中 序 (inorder) ， 我 们 访问 该 节点 的 左 子 树 ， 然 后 访问 该 节点 ， 再 访问 该 节点 的 右 子 树 ， 

* 后 序 (postorder)， 我 们 访问 该 节点 的 左 子 树 和 右 子 树 ， 然 后 访问 该 节点 。 

我 们 可 以 容易 地 用 递归 程序 实现 这 些 方法 ， 如 程序 5.14 所 示 。 这 是 程序 5.5 中 的 链表 遍历 
程序 的 直接 推广 。 要 按照 其 他 顺序 实现 遍历 ， 我 们 以 适当 的 方式 排列 程序 5.14 中 的 函数 调用 。 
对 于 每 种 情况 ， 图 5-26 显 示 了 我 们 访问 一 棵 示例 树 的 节点 顺序 。 图 5-25 显 示 了 当 我 们 在 图 5-26 
的 示例 树 上 调用 程序 5.14 时 执行 函数 调用 的 顺序 。 


traverse E 
visitE 
traverse D 
visit D 
traverse B 
visit B 
traverse A 
visit A 
traverse * 
traverse * 
traverse C 
Visit C 
traverse * 
traverse * 
traverse * 
traverse H 
visit H 
traverse F 
visit 了 
traverse * 
traverse G 
visit G 
traverse * 
traverse * 
traverse * 





图 5-25 前 序 遍 历 函 数 调 用 
注 ， 对 于 图 5-26 的 示例 树 ， 这 个 函数 调用 的 顺序 构成 前 序 遍 历 。 





这 个 递归 函数 取 指向 树 的 链接 作为 参数 ， 并 且 用 树 上 的 每 一 个 节点 作为 参数 调用 函数 
visit。 也 就 是 说 ， 该 函数 实现 一 个 前 序 遍历 ， 如 果 对 visit 的 调用 移动 到 递归 调用 之 间 ， 我 
们 就 得 到 中 序 遍 历 ， 如 果 对 visit 的 调用 移 到 递归 调用 之 后 ， 我 们 就 得 到 后 序 饥 历 。 

void traverse(link h, void (*visit) (link)) 

i 
if (h == NULL) return; 
(*visit) (h); 
traverse(h->1, visit); 
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traverse(h->r, visit); 





图 5-26 树 遍 历 的 顺序 
注 : 这 些 序列 表明 了 按照 前 序 遍 历 、 中 序 遍 历 和 后 序 遍 历 访 问 树 中 的 节点 的 顺序 。 


我 们 已 经 在 基于 分 治 递归 程序 ( 见 图 5-8 与 图 5-11) 以 及 算术 表达 式 的 各 种 树 遍 历 算法 中 
遇 到 相同 的 基本 递归 过 程 。 例 如 ， 首 先 根据 前 序 遍 历 在 尺子 上 画 线 ， 然 后 进行 递归 调用 ( 见 
图 5-11) ， 在 求解 汉 诺 塔 问题 中 ， 在 两 次 递归 调用 移动 其 他 所 有 盘子 之 间 ， 首 先进 行 中 序 遍 历 
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移动 最 大 的 盘子 ， 对 于 后 组 表达 式 求 值 ， 先 进行 后 序 遍 历 ， 等 等 。 这 些 对 应 关系 使 我 们 对 于 
隐 含 在 树 遍 历 之 后 的 机 制 有 了 直观 的 认识 。 例 如 ， 我 们 知道 在 中 序 遍 历 中 每 隔 一 个 节点 就 是 
外 部 节点 ， 出 于 同样 的 道理 ， 在 汉 诺 塔 中 每 隔 一 次 移动 都 涉及 了 最 小 的 盘子 。 

考虑 那些 使 用 显示 的 下 推 栈 的 非 递归 实现 同样 很 有 好 处 。 为 简单 起 见 ， 我 们 从 一 个 抽象 
栈 开 始 考察 ， 这 个 栈 能 够 保存 数据 项 或 树 ， 以 将 被 遍历 的 树 初始 化 。 然 后 ， 我 们 进入 一 个 循 
环 ， 在 这 个 循环 中 我 们 弹出 并 处 理 在 栈 顶 的 元 素 ， 如 此 继续 ， 直 到 栈 空 为 止 。 如 果 弹 出 的 元 
素 是 一 个 数据 项 ， 就 访问 它 ， 如 果 弹 出 的 元 素 是 一 棵 树 ， 就 按照 希望 的 顺序 执行 一 系列 的 入 
栈 操 作 ， 

“对 于 前 序 ， 我 们 压 入 右 子 树 ， 然 后 是 左 子 树 ， 最 后 是 节点 。 

“对 于 中 序 ， 我 们 压 人 右 子 树 ， 然 后 是 节点 ， 最 后 是 左 子 树 。 

“" 对 于 后 序 ， 我 们 压 和 节点， 然后 是 右 子 树 ， 最 后 是 左 子 树 。 

把 空 树 压 人 到 栈 中 并 不 难 。 图 5-27 显 示 了 我 们 使 用 三 种 方法 遍历 图 $-26 中 的 示例 树 时 栈 中 


的 内 容 。 我 们 通过 归纳 法 可 以 容易 地 证 实 这 个 方法 可 以 得 出 与 二 叉 树 的 递归 方法 同样 的 输出 
结果 。 
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图 5-27 树 过 历 算 法 的 栈 内 容 
注 :这些 序列 表明 了 按照 前 序 ( 左 图 ) 、 中 序 (中 图 ) 和 后 序 ( 右 图 ) 遍历 树 时 的 栈 中 内 容 。( 见 图 5-26) ， 对 于 一 
个 理想 化 的 计算 模型 ， 类 似 于 我 们 在 图 S-5 中 使 用 的 模型 ， 我 们 可 以 按照 指示 的 顺序 把 数据 项 以 及 它 的 两 棵 子 
树 放 到 栈 中 。 

在 前 一 段 中 描述 的 模式 是 概念 性 的 ， 包 括 了 三 种 遍历 的 方法 ， 但 在 我 们 的 实际 实现 中 要 
稍微 简单 一 些 。 例 如 ， 对 于 前 序 ， 我 们 不 需要 把 节点 推 到 栈 上 (我 们 访问 弹出 来 的 每 一 棵 树 
的 根 节 点 )， 这 样 的 话 ， 我 们 就 能 使 用 一 个 仅 包 含 一 种 类 型 数据 项 ( 树 链接 ) 的 简单 栈 ， 类 
似 于 在 程序 5.15 中 的 非 递 归 实 现 。 支 持 递 归程 序 的 系统 栈 包 括 返 回 地 址 与 参数 值 ， 而 不 是 数 
据 项 或 节点 ， 但 是 实际 进行 计算 (访问 节点 ) 的 顺序 对 于 递归 方法 和 基于 栈 的 办 法 来 说 是 一 

“程序 5.15 前 序 遍 历 〈 非 递归 ) 、 人 
非 迷 归 的 基于 本 的 函数 与 相应 的 程序 5. 14 中 的 递归 函数 在 功能 上 是 相同 的 。 


void traverse(link h, void (*visit) (link)) 


144 第 二 序 分 数据 纤 构 


{ 
STACKinit (max); STACKpush (h); 
while (1STACKempty()) 
{ 
(*visit) (h = STACKpop()); 
if (h->r 1= NULL) STACKpush (->T) ; 
if (h->1 != NULL) STACKpush(h->1) ; 
} 
} 





第 四 种 自然 的 遍历 策略 简单 来 说 就 是 当 节 点 出 现在 页 面 上 时 ， 从 上 到 下 从 左 到 右 访问 树 
中 的 节点 。 这 种 方法 称 为 层 序 (level-order) 遍历 ， 因 为 在 每 一 层 上 的 节点 都 按 顺 序 出 现 。 
5-28 显 示 了 图 5-26 中 树 的 节点 是 如 何 按 层 序 被 访问 的 。 

值得 注意 的 是 ， 我 们 可 以 使 用 队列 代替 程序 5.15 中 的 栈 来 进行 层 序 遍历 ， 如 同 程序 5.16 所 
示 。 对 于 前 序 遍历 ， 我 们 使 用 LIFO (后 进 先 出 ) 数据 结构 ， 对 于 层 序 遍历 ， 我 们 使 用 FIFO 
(先进 先 出 ) 数据 结构 。 这 些 程序 值得 认真 研究 ， 因 为 它们 表示 了 对 实质 不 同 的 待 完成 工作 的 

组 织 方法 。 特 别 地 ， 层 序 遍 历 并 不 与 树 的 递归 结构 的 递归 实现 一 致 。 

前 序 、 后 序 和 层 序 顺序 对 森林 同样 能 很 好 地 定义 。 为 了 使 定义 一 致 ， 就 把 森林 设想 为 一 
棵 有 假想 根 节点 的 树 。 然 后 ， 前 序 规则 就 是 “访问 根 节点 、 再 访问 每 一 棵 子 树 。” 后 序 规则 就 
是 “访问 每 一 棵 子 树 ， 再 访问 根 节点 。” 层 序 遍 历 就 和 二 又 树 一 样 。 这 些 方法 的 直接 实现 是 对 
基于 栈 的 前 序 遍 历程 序 ( 见 程序 5.14 与 程序 $.15) 以 及 我 们 刚 考察 的 基于 队列 的 二 叉 树 的 晨 序 
遍历 程序 〈 见 程序 5.16) 的 直接 推广 。 我 们 省 略 了 实现 的 考察 ， 因 为 我 们 将 在 5.8 节 考察 更 一 
般 的 过 程 。 

Rp 

把 前 序 遍历 ( 见 程序 5. 15) 中 基本 数据 结构 从 栈 转变 为 队列 ， 就 把 前 序 凯 历 转变 成 层 序 
遍历 。 

void traverse(link h, void (*visit) (link)) 

{ 


QUEUEinit (max); QUEUEPuat (h); 
while (!QUEUEempty()) 
{ 


(*visit) (h = QUEUEget() ) ; 
if (h~>1 != NULL) QUEUEPput (h->1) ; 


if (h~>r != NULL) QUEUEput (h->r); 
} 


练习 
>5.79 给 出 下 列 二 叉 树 的 前 序 、 中 序 、 后 序 和 层 序 遍历 。 
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>5.80 按 图 5-27 的 风格 显示 出 图 5$-28 中 描述 的 层 序 遍历 中 队列 的 内 容 。 
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图 5-28 层 序 遍 历 
注 : 这 个 顺序 描述 了 按照 从 上 到 下 从 左 到 右 顺序 访问 节点 的 结果 。 
5.81 证 明 森 林 的 后 序 遍 历 与 对 应 的 二 叉 树 的 前 序 遍 历 相同 〈 见 性 质 5.4) ， 和 森林 的 后 序 遍 历 与 
二 又 树 的 中 序 遍 历 相 同 。 
05.82 给 出 一 个 中 序 遍 历 的 非 递 归 实 现 。 
“5.83 给 出 一 个 后 序 遍 历 的 非 递归 实现 。 
“5.84 编写 一 个 程序 ， 取 二 又 树 的 前 序 遍 历 和 中 序 遍 历 作为 输入 ， 输 出 树 的 层 序 遍历 。 


5.7 递归 二 又 树 算法 


我 们 在 5.6 节 中 考虑 的 二 叉 树 遍历 算法 是 我 们 要 考虑 二 又 树 的 递归 算法 的 例证 ， 因 为 作为 
递归 结构 本 质 的 树 具 有 这 些 性 质 。 许 多 任务 允许 直接 递归 分 治 算法 ， 这 些 算法 在 本 质 上 对 遍 
历 的 算法 进行 了 推广 。 我 们 通过 处 理 根 节点 和 【递归 地 处 理 ) 它 的 子 树 来 处 理 整 棵 树 ， 我 们 
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可 以 在 递归 定义 之 前 、 之 间 、 之 后 甚至 三 段 时 间 同 时 进行 计算 。 

给 定 指向 树 的 一 个 链接 ， 我 们 常常 需要 找到 树 的 各 种 结构 参数 的 值 。 例 如 ， 程 序 5.17 包 含 
了 计算 给 定 树 的 节点 的 个 数 和 高 度 的 递归 函数 。 该 函数 直接 可 由 定义 5.6 而 得 。 这 些 函 数 均 不 
依靠 于 处 理 递归 调用 的 次 序 : 如 果 我 们 交换 递归 调用 ， 这 些 函 数 也 处 理 树 上 的 所 有 节点 并 返 
回 相 同 的 答案 。 并 非 所 有 的 树 参数 都 这 么 容易 计算 : 例如 ， 一 个 能 高 效 计算 二 又 树 的 内 部 路 
径 长 度 的 程序 就 是 较 大 的 挑战 〈 见 练习 5.88 到 练习 5.90) 。 


程序 5.17 树 参 数 的 计算 
我 们 可 以 使 用 下 面 的 简单 的 递归 过 程 来 学 习 树 的 基本 结构 的 性 质 。 


int count(link h) 


if (h == NULL) return 0; 
return count (h->1) + count (h->r) + 1; 


int height (link h) 
{ int nu, Vv; 
if (h == NULL) return -1; 
u = height(h->1); v = height (h->r); 
if (u > v) return ut+i; else return v+i; 


当 我 们 编写 一 个 处 理 树 的 程序 时 ， 另 一 个 有 用 的 函数 就 是 能 输出 这 棵 树 或 画 出 这 棵 树 的 
函数 。 例 如 ， 程 序 5.18 是 个 递归 的 过 程 ， 它 能 按 图 5-29 所 示 的 格式 输出 一 棵 树 。 我 们 可 以 使 用 
同样 的 递归 方法 画 出 更 详细 的 树 的 表示 ， 例 如 我 们 在 书 中 使 用 的 那些 树 ( 见 练习 5.85)。 





图 5-29 (中 序 和 前 序 ) 打印 一 棵 树 


注 : 左边 的 结果 来 自 对 图 5-26 中 的 示例 树 执 行程 序 5.18 所 得 的 输出 ， 显 示 树 的 结构 类 似 于 图 的 表示 方式 (其 中 
的 图 我 们 已 经 使 用 过 ， 转 了 90 度 ) 。 右 边 的 结果 来 自 同一 程序 的 输出 ， 但 打印 语 册 被 物 到 了 开头 ; 它 以 一 种 
就 悉 的 简要 格式 显示 了 树 的 结构 。 


程序 5.18 是 一 个 中 序 遍 历 一 一 如 果 我 们 在 递归 调用 之 前 输出 该 数据 项 ， 就 得 到 一 个 前 序 遍 
历 ， 该 遍历 同样 在 图 5-29 中 显示 出 。 我 们 可 能 要 用 到 这 种 格式 ， 例 如 对 于 一 族 树 ， 或 是 列 出 
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基于 树 的 文件 系统 的 文件 ， 或 者 概要 列 出 打印 的 文档 。 例 如 ， 对 图 5-19 中 的 树 进行 前 序 遍 历 
多 出 本 书 的 框架 结构 。 


程序 5.18 快速 打印 树 的 函数 


该 递归 程序 记录 树 的 高 度 并 使 用 该 信息 确定 打印 出 树 的 表示 ， 我 们 可 用 它 调试 梦 处 理 各 
序 〈 见 图 5-29) 。 假 设 节 点 中 的 数据 项 是 字符 型 的 。 
void printnode(char c，int hy) 
{ int i; 
for (i = 0; i < hi i++) printf(" "); 
printf("%c\n", c); 


void show(link x, int h) 
{ 
if (x == NULL) { printnode(’*’, h); return; } 
show(x->r, h+1); 
printnode (x->item, h); 
show(x->1], h+1); 
} 


第 一 个 程序 的 例子 是 构建 一 棵 显 式 二 又 树 结 构 ， 它 与 5.2 节 讨论 的 找 最 大 值 应 用 问题 有 关 。 
我 们 目标 是 构建 一 个 联赛 (tournament): 二 又 树 的 每 个 内 节点 中 的 数据 项 是 其 两 个 孩子 节点 
的 数据 项 中 较 大 者 的 副本 。 特 别 是 ， 根 节点 的 数据 项 是 联赛 中 最 大 数据 项 的 副本 。 叶 节点 
(没有 孩子 节点 的 节点 ) 中 的 数据 项 构成 了 我 们 感 兴趣 的 数据 ,， 树 的 其 余部 分 是 一 个 数据 结构 ， 
我 们 可 以 通过 它 有 效 地 找 出 最 大 的 数据 项 。 

程序 5.19 是 一 个 递归 程序 ， 该 程序 对 数组 中 的 数据 项 构造 了 一 个 联赛 。 程 序 5.6 的 改版 使 
用 了 一 种 分 治 递归 策略 ， 构 造 一 个 数据 项 的 联赛 ， 需 创建 (并且 返 回 ) 一 个 叶 节 点 ， 该 叶 节 
点 就 包括 了 那个 数据 项 。 要 为 N > 1 的 数据 项 构造 一 个 联赛 ， 我 们 使 用 分 治 策略 ， 把 数据 项 分 
解 成 两 半 ， 为 每 一 半 构 造 一 个 联赛 ， 并 创建 一 个 新 的 节点 ， 该 节点 具有 到 两 个 联赛 的 链接 ， 
并 且 有 一 个 数据 项 ， 该 数据 项 是 两 个 联赛 的 根 市 点 的 较 大 数据 项 的 副本 。 


程序 5.19 联赛 的 构造 ， 
该 递归 函数 是 把 数组 a[1]，.… ，a[r] 分 解 成 两 个 部 分 a[1]，.… ，afm] 和 a[m+1]， 
a[r]， 且 为 这 两 部 分 递归 地 构造 联赛 ， 并 在 新 节点 中 设置 指向 递归 创建 的 联赛 的 链接 ， 同 时 
把 其 数据 项 设置 为 两 个 递归 创建 的 联赛 的 根 节 点 的 数据 项 的 较 大 者 。 
typedef struct node *1ink; 
struct node { Item item; link 1, r }; 
link NEW(Item item, link 1, link r) 
{ link x = malloc(sizeof *x); 
x->item = item; x->1 = 1; x->r = r; 
return x; 
} 
link max(Item a[], int 1, int r) 
{ int m= (+r)/2; Item u, Vv; 
link x = NEW(a[m], NULL, NULL); 
if (1 == r) return x; 
x->1 = max(a, 1, nm); 
Xx->r = max(a, mt1, r); 


148 蔓 二 六 分 数据 结 欧 


U = x->1->item; V = x->r->itenm; 
if (u > v) 

Xx->item = u; else x->item = Vi 
return 工 ; 


} 


图 5-30 是 一 个 可 由 程序 5.19 构 建 的 显 式 树 结构 的 例子 ,构造 一 个 诸如 这 样 的 递归 数据 结构 ， 
在 某 种 情况 下 可 能 最 好 是 通过 扫描 数据 来 找到 最 大 值 ， 如 同 在 程序 5.6 中 所 做 的 ， 其 原因 是 树 
结构 给 我 们 完成 其 他 操作 提供 了 灵活 性 。 我 们 用 于 构造 联赛 的 这 个 操作 是 一 个 重要 的 例子 : 
给 定 两 个 联赛 ， 我 们 可 以 在 常量 时 间 把 它们 组 合 为 一 个 联赛 ， 方 法 是 创建 一 个 新 的 节点 ， 并 
且 令 它 的 左 链接 指向 其 中 一 个 联赛 ， 右 链接 指向 另 一 个 联赛 ， 挑 出 两 个 数据 项 (两 个 给 定 联 
赛 的 根 节点 ) 中 较 大 的 一 个 作为 组 合 联赛 中 的 最 大 数据 项 。 我 们 同样 可 以 考虑 那些 支持 增加 
数据 项 、 删 除数 据 项 以 及 进行 其 他 操作 的 算法 。 我 们 并 不 打算 在 这 里 详细 考虑 这 些 操作 ， 原 
因 在 于 我 们 要 在 第 9 章 的 内 容 中 考虑 类 似 的 有 这 种 灵活 性 的 数据 结构 。 





图 5-30 找 最 大 值 的 显 式 树 
注 : 这 个 图 描述 了 以 A MP LE 作为 输入 的 程序 5.19 所 构造 的 显 式 树 的 结构 。 该 数据 项 是 在 叶 节 点 中 。 每 一 个 内 
部 节点 都 包含 其 两 子 节点 数据 项 的 较 大 者 的 副本 ， 因 此 通过 归纳 法 ， 最 大 数据 项 在 根 节 点 中 。 
实际 上 ， 我 们 在 4.6 节 讨论 过 的 几 种 广义 队列 ADT 中 的 基于 树 的 实现 是 这 本 书 中 所 要 讨论 
的 主题 。 特 别 是 ， 从 第 12 章 至 第 15 章 中 的 许多 算法 都 是 基于 二 又 搜索 树 的 ， 它 们 是 与 二 又 搜 
索 相 对 应 的 显 式 树 ， 类 似 于 图 5-30 的 显 式 结构 和 图 5- 
6 的 递归 找 最 大 值 算法 的 关系 。 实 现 和 使 用 这 类 结构 
的 挑战 是 要 保证 算法 在 一 系列 的 插入 、 删 除 以 及 其 
他 操作 后 仍然 高 效 。 
构建 二 又 树 的 第 二 个 程序 实例 是 修改 5.1 节 中 的 
-前 组 表达 式 求 值 程序 (程序 5.4)， 以 便 构造 一 个 表示 
前 级 表达 式 的 树 形 表 示 ， 而 不 只 是 对 它 求 值 ( 见 图 
”5-31) 。 程 序 5.20 使 用 了 和 程序 5.4 一 样 的 递归 方法 ， 汪汪 各 村 由 人 全 仆人 
但 是 程序 5.20 的 递归 函数 返回 指向 树 的 一 个 链接 ， 而 然 方 法 : 每 个 操作 数 都 在 叶 节 点 中 (在 图 
不 是 一 个 值 。 我 们 为 表达 式 中 的 每 个 字符 创建 一 个 新 中 我 们 画作 外 部 节点 ) ， 每 个 操作 符 都 应 用 
的 树 节点 :对 应 操作 符 的 节点 都 有 指向 操作 数 的 链接 ， 到 包含 该 操作 符 的 节点 的 左 子 树 和 右 了 村 
叶 节点 含有 变量 (或 常量 ) ， 它 们 是 表达 式 的 输入 。 要 下 的 表达 并 中 。 


， 程序 5.20 分 析 树 的 构造 0 

使 用 与 我 们 用 于 前 级 表达 式 求 值 ( 见 程序 5.4) 的 同样 策略 ， 这 个 程序 从 一 个 前 级 表达 
式 构建 一 棵 分 析 树 。 为 简单 起 见 ， 假 设 操作 数 是 一 个 字符 。 每 一 个 递归 国 数 的 调用 都 创建 
一 个 新 的 节点 ， 其 中 以 输入 的 下 一 个 字符 作为 记号 。 如 果 该 记号 是 操作 数 ， 则 返回 到 新 的 
节点 ， 如 果 该 记号 是 操作 符 ， 则 设置 左 指针 和 右 指针 指向 为 两 个 参数 递归 地 ) 创建 的 那 
棵 树 上 。 





图 5-31 分 析 树 
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char *a; int i; 
typedef struct Tnode* link; 
struct Tnode { char token; link 1, r; }; 
link NEW(char token, link 1, link r) 
{ link x = malloc(sizeof *x); 
Xx->token = token; x->1 = 1; x~>r = r; 
return x; 
} 
link parse() 
{ char t = a[i++]; 
link x = NEW(t, NULL, NULL); 


if ((t == :+?) || (t == ’*’)) 
{ x->1 = parse(); x->r = parse(); } 
return x; 
} 


诸如 编译 器 这 样 的 翻译 程序 经 常 使 用 内 部 树 表示 程 序 ， 因 为 树 有 很 多 用 处 。 例 如 ， 我 们 
可 以 把 取 值 的 变量 想象 为 操作 数 ， 我 们 也 可 以 产生 机 器 代码 使 用 后 序 遍 历来 计算 树 所 表示 的 
表达 式 的 值 。 或 者 ， 我 们 可 以 使 用 中 序 遍 历 以 树 形式 打印 出 表达 式 的 中 缀 形式 ， 或 是 用 后 序 
遍历 打印 出 表达 式 的 后 缀 形式 。 

我 们 在 这 几 节 中 考察 的 一 些 例子 是 为 了 引入 一 个 概念 ， 我 们 可 以 用 递归 程序 构建 并 处 理 
显 式 的 链接 树 结构 。 要 高 效 地 做 到 这 一 点 ， 我 们 需要 考察 各 种 算法 的 性 能 ， 可 选 表示 、 非 递 
归 可 选 方案 的 操作 以 及 许多 的 其 他 细节 。 然 而 ， 我 们 将 推迟 对 树 处 理 程序 的 更 为 详尽 的 考察 ， 
直到 第 12 章 再 考虑 ， 理 由 是 我 们 在 第 7 章 至 第 11 章 使 用 树 基本 上 是 为 了 描述 的 目的 。 我 们 在 第 
12 章 返回 到 显 式 树 的 实现 ， 因 为 这 些 实现 形成 了 我 们 要 考察 的 第 12 章 至 第 15 章 的 大 量 算法 的 
基础 。 
练习 
05.85 修改 程序 5.18 输 出 一 个 画 树 的 PostScript 程 序 ， 格 式 就 像 图 5-23 中 那样 的 ， 但 不 用 方 框 表 
示 外 部 节点 。 使 用 moveto 和 1ineto 来 画 线 ， 并 且 使 用 用 户 定义 的 操作 符 

/node {newpath moveto currentpoint 4 0 360 arc fi11} def 

来 画 节点 。 定 义 之 后 ， 调 用 node 在 栈 的 坐标 上 夯 一 个 黑 点 ( 见 4.3 节 )。 
>5.86 编写 一 个 计算 二 又 树 中 叶 节 点 个 数 的 程序 。 
>5.87 编写 一 个 计算 二 又 树 中 节点 个 数 的 程序 ， 该 二 又 树 有 一 个 外 部 节点 与 一 个 内 部 子 节点 。 
>5.88 编写 一 个 使 用 定义 5.6 计 算 二 又 树 中 内 部 路 径 长 度 的 程序 。 
5.89 ” 当 计 算 二 又 树 的 内 部 路 径 长 度 时 ， 确 定 你 的 程序 所 做 的 函数 调用 的 数 且 。 通 过 归纳 法 
证 明 你 的 答案 。 
“5.90 ”编写 一 个 计算 二 又 树 中 内 部 路 径 长 度 的 递归 程序 ， 这 个 程序 的 运行 时 间 与 树 的 节点 数 
目 成 正比 。 
25.91 编写 一 个 从 联赛 中 删除 带 有 给 定 关键 字 的 所 有 叶 节 点 的 递归 程序 ( 见 练习 5.59) 。 


5.8 图 的 遍历 


对 于 本 章 最 后 一 个 递归 程序 ， 我 们 考虑 所 有 递归 程序 中 最 为 重要 的 一 个 程序 : 递归 图 的 
遍历 ， 即 深度 优先 搜索 。 系 统 地 访问 图 中 所 有 节点 的 方法 是 我 们 在 5.6 节 考虑 的 树 的 遍历 方法 
的 直接 推广 ， 它 是 很 多 处 理 图 的 基本 算法 的 基础 ( 见 第 七 部 分 )。 它 是 一 个 简单 的 递归 算法 。 
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从 任意 节点 v 开 始 ， 
* 访问 v。 
。 (递归 地 ) 访问 每 一 个 依附 于 v 的 (未 访问 过 的 ) 节点 。 
如 果 图 是 连通 的 ， 我 们 最 终 可 以 到 达 所 有 的 节点 。 程序 521 是 该 递归 过 程 的 一 种 实现 。 


2 是 
要 访问 图 中 与 节点 相连 的 所 有 节点 ， 我 们 将 它 标记 为 访问 过 的 ， 然后 (递归 地 ) 访问 k 
的 邻接 表 中 的 所 有 未 访问 过 的 节点 。 
void traverse(int k, void (*visit) (int)) 
{ link t; 
(*visit) (k); visited[k] = 
for (t = adj[k]; t != NULL; t = t->next) 
if (lvisited[t->v]) traverse(t->v, visit); 





} 


例如 ， 假 设 我 们 使 用 邻接 表 表 示 图 3-15 中 描述 的 示例 图 。 图 5-32 显 示 出 在 对 此 图 执行 深度 
优先 搜索 的 过 程 中 所 做 的 递归 调用 ， 图 5-33 中 的 左边 图 示 描 述 了 我 们 在 图 中 沿 着 边 遍 历 的 序 
列 。 我 们 沿 着 图 中 的 边 遍 历 ， 有 两 种 可 能 的 结果 之 一 : 如果 边 把 我 们 带 到 一 个 已 经 访问 过 的 


visit 0 
visit 7 (first on O's list) 
visit 1 (first on 7's list) 
check 7 on 1s list 
check 0 on t's list 
visit 2 (second on 7's list) 
check 7 on 2's list 
check 0 on 2's list 
check 0 on 7's jist 
visit 4 (fourth on 7's list) 
visit 6 (first on 4's list) 
check 4 on 6's list 
check 0 on 6's list 
visit 5 (second on 4's list) 
check 0 on S's list 
check 4 on 5's list 
visit 3 (third on S's list) 
check 5 on 3's list 
check 4 on 3's list 
check 7 on 4's list 
check 3 on 4's list 
check 5 on 0S list 
check 2 on O's list 
check 1 on O's list 
check 6 on 0's list 





图 5-32 深度 优先 搜索 的 函数 调用 


注 : 这 个 函数 调用 序列 构成 了 图 3-15 的 示例 图 的 深度 优先 搜索 过 程 。 描 述 了 递归 调用 结构 (上 图 ) 的 树 被 称 为 
深度 优先 搜索 树 。 
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节点 ， 则 忽略 它 ， 如 果 边 把 我 们 带 到 一 个 还 未 访问 的 节点 ， 则 通过 该 节点 进行 递归 调用 。 我 
们 用 这 种 方式 遍历 的 所 有 边 的 集合 形成 图 的 一 棵 生成 树 。 





图 5-33 深度 优先 搜索 与 广度 优先 搜索 


注 : 深度 优先 搜索 ( 左 图 ) 从 节点 移 到 节点 ， 当 它 对 于 给 定 节点 党 试 过 每 一 种 可 能 性 后 ， 就 退 到 前 一 节点 来 党 
试 下 一 个 位 置 。 宽 度 优先 搜索 ( 右 图 ) 在 尝试 一 个 节点 的 所 有 可 能 性 后 ， 才 移 到 下 一 个 节点 ， 

深度 优先 搜索 和 一 般 树 的 遍历 之 间 的 区 别 〈 见 程序 5.14) 是 我 们 需要 显 式 地 保证 不 会 访问 

我 们 已 经 访问 过 的 节点 。 在 一 棵 树 中 ， 我 们 不 会 遇 到 这 样 的 节点 。 实 际 上 ， 如 果 这 个 图 是 一 
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棵 树 ， 从 根 节点 开始 的 递归 深度 优先 搜索 就 与 前 序 遍 历 等 价 。 

性 质 5.10 ”在 一 个 Y 个 节点 、 殖 条 边 的 图 中 ， 使 用 邻接 表 表 示 图 ， 深 度 优先 搜索 所 需 时 间 
与 了 二 五 成 正比 。 

在 邻接 表 表 示 中 ， 一 个 表 节 点 对 应 图 中 的 一 条 边 ， 一 个 表 头 指针 对 应 图 中 的 一 个 节点 。 
深度 优先 搜索 访问 它们 最 多 一 次 。 国 

对 于 一 个 边 的 输入 序列 ， 由 于 构建 邻接 表 表 示 的 时 间 也 与 V + 有 成 正比 〈 见 程序 3.19) ， 因 
而 深度 优先 搜索 给 我 们 一 个 线性 时 间 的 求解 方法 来 解 第 1 章 中 的 连通 性 问题 。 对 于 大 型 图 ， 合 
并 一 查找 方法 更 为 可 取 ， 因 为 表示 整个 图 所 需 空间 与 E 成 正比 ， 但 合并 一 查找 方法 所 需 空 间 与 V 
成 正比 。 

就 如 我 们 在 树 遍 历 中 所 做 的 ， 我 们 可 以 定义 一 个 使 用 显 式 栈 的 图 遍历 方法 ， 如 同 图 5-34 
所 描述 的 那样 。 我 们 可 以 考虑 一 个 包含 两 个 元 素 的 抽象 栈 : 一 个 节点 和 一 个 指向 该 节点 邻接 
表 的 指针 。 栈 被 初始 化 为 起 始 节 点 ， 指 针 被 初始 化 为 指向 那个 节点 邻接 表 的 第 一 个 节点 ， 深 
度 优先 搜索 算法 与 进入 一 个 循环 是 等 价 的 。 在 循环 中 ， 我 们 访问 栈 顶 节点 (如 果 该 节点 还 未 
被 访问 ) ， 把 当前 邻接 表 指针 引用 的 节点 存储 起 来 ， 更 新 引用 下 一 个 节点 的 邻接 表 (如 果 节 
点 在 邻接 表 尾 ， 则 弹出 该 元 素 ) ， 然后 向 栈 中 压 入 一 个 已 存储 的 节点 ， 并 指向 其 邻接 表 的 第 


一 个 节点 。 
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图 5-34 深度 优先 搜索 栈 动态 行为 


注 : 我 们 可 以 把 支持 深度 优先 搜索 的 下 推 栈 想象 由 一 个 节点 和 指向 该 节点 的 邻接 表 (由 一 个 带 国 的 节点 指示 ) 
的 引用 组 成 。 困 此， 我 们 就 从 栈 中 节点 0 及 指向 其 邻接 表 的 第 一 个 节点 的 引用 开始 ， 即 节点 7 的 引用 。 每 一 
行 中 指示 弹出 栈 的 结果 ， 把 对 下 一 个 节点 的 引用 压 入 已 经 被 访问 的 节点 表 中 ， 再 把 一 个 元 素 压 入 到 未 被 访 
问 的 节点 的 槛 中 。 另 一 种 思路 是 ， 我 们 可 以 把 这 个 过 程 简单 地 看 作 把 所 有 与 任何 未 被 访问 的 节点 邻接 的 节 
点 压 入 栈 中 〈 右 图 ) 。 
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如 同 我 们 在 树 遍 历时 所 做 的 ， 另 一 种 方法 是 我 们 可 以 考察 只 含 指向 节点 链接 的 栈 。 栈 被 
初始 化 为 起 始 节 点 ， 指 针 初 始 化 为 指向 那个 节点 邻接 表 的 第 一 个 节点 ， 深 度 优先 搜索 算法 与 
进入 一 个 循环 是 等 价 的 ， 在 循环 中 我 们 访问 栈 顶 的 节点 (如 果 该 节点 还 未 被 访问 )， 然 后 把 与 
它 相 邻 的 所 有 节点 压 入 栈 中 。 图 5-34 描 述 了 这 两 种 方法 对 于 示例 图 执行 深度 优先 搜索 是 等 价 
的 ， 而 且 等 价 性 对 于 一 般 情况 成 立 。 

访问 栈 顶 节点 并 压 入 其 所 有 邻接 节点 的 算法 是 一 个 简单 的 深度 优先 搜索 的 方法 ， 但 从 图 
5-34 清 楚 地 看 到 这 有 一 个 缺点 ， 即 在 栈 中 留 下 每 个 节点 的 多 个 副本 。 即 使 是 我 们 去 测试 每 一 
个 将 到 栈 中 的 节点 是 否 已 被 访问 过 ， 若 被 访问 过 就 禁止 把 节点 放 到 栈 中 ， 也 是 如 此 。 要 避免 
这 个 问题 ， 我 们 可 以 使 用 一 个 栈 实现 ， 该 实现 通过 使 用 一 个 “忘记 旧 项 ”的 策略 来 避免 重复 ， 
因为 最 接近 栈 顶 端的 副本 常常 是 最 先 被 访问 的 ， 所 以 其 他 的 就 很 容易 被 弹出 。 

在 图 5-34 中 说 明了 用 于 深度 优先 搜索 的 栈 的 动态 行为 依靠 于 每 一 个 邻接 表 上 的 节点 ， 该 
邻接 表 在 栈 中 结束 的 顺序 就 和 它们 在 表 中 出 现 的 顺序 一 样 。 当 一 次 推 人 一 个 节点 时 ， 为 了 得 
到 给 定 邻 接 表 的 这 个 顺序 ， 我 们 将 必须 首先 把 表 中 最 后 的 节点 压 入 栈 ， 然 后 是 次 后 的 节点 ， 
以 此 类 推 。 更 进一步 ， 把 栈 的 大 小 限制 为 节点 的 数目 ， 而 同时 按 与 深度 优先 搜索 中 相同 的 顺 
序 访问 节点 ， 我 们 需要 用 “忘记 旧 项 ”策略 以 使 用 相同 的 栈 原则 。 如 果 按 与 深度 优先 搜索 中 
相间 的 顺序 访 间 节 点 对 我 们 来 说 并 不 重要 ， 我 们 可 以 避免 以 上 的 复杂 方法 ， 并 直接 形式 化 为 
一 个 非 递归 的 基于 栈 的 图 遍历 的 方法 : 使 用 开始 节点 初始 化 栈 ， 我 们 进入 一 个 循环 ， 在 这 个 
循环 中 ， 我 们 访问 栈 顶 节点 ， 然 后 通过 它 的 邻接 表 继 续 该 过 程 ， 把 每 一 个 节点 压 和 人 栈 顶 〈 如 
果 该 节点 还 未 被 访问 ) ， 用 “忽略 新 项 ”策略 使 用 一 个 不 允许 重复 的 栈 实 现 。 该 算法 以 一 种 类 
似 于 深度 优先 的 方式 访问 图 中 所 有 的 节点 ,但 它 不 是 递归 的 。 

前 几 段 中 的 算法 是 值得 我 们 注意 的 ， 原因 是 我 们 可 以 使 用 任意 的 广义 队列 ADT， 并 且 访 
问 图 中 的 每 一 个 节点 〈 并 产生 一 棵 生成 树 ) 。 例 如 ， 如 果 我 们 使 用 队列 而 不 是 栈 ， 那 么 我 们 就 
得 到 广度 优先 搜索 (bread-first search) ， 读 搜索 可 与 树 的 层 序 遍历 类 比 。 程 序 5.22 就 是 这 个 方 
法 的 实现 (假设 我 们 使 用 类 似 于 程序 4.12 的 一 个 队列 实现 ) ， 操 作 中 的 一 个 算法 的 例子 在 图 
5-35 中 描述 。 在 第 六 部分， 我 们 将 考察 大 量 的 基于 更 复杂 的 广义 队列 ADT 的 图 算法 。 


由 “程序 5 22 “广度 优先 搜索 

要 访问 图 中 与 节点 4 相 邻 的 节点 ， 我 们 把 : 放 倒 一 个 FIFO 队 列 中 ， 然 后 进入 一 个 从 这 个 队 
列 中 得 到 下 一 节点 的 循环 ， 并 且 如 果 它 未 被 访问 ， 那 么 就 访问 它 并 把 所 有 未 访问 的 节点 压 人 
到 它 的 邻接 表 中 ， 如 此 继续 ， 直 到 队列 为 空 。 


void traverse(int k, void (*visit) (int)) 
{ link t; 
QUEUEinit (V); QUEUEput (k); 
while (!QUEUEempty()) 
if (visited[k = QUEUEget()] == 0) 
{ 
(x*visit) (kK); visited[k] = 
for (t = adj[k]; t != NULL; t = t->next) 
if (visited[t->v] == 0) QUEUEput (t->V) ; 
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图 5-35 广度 优先 搜索 队列 动态 行为 


注 : 我 们 从 队列 中 的 0 开始 ， 然 后 得 到 0， 访问 它 ， 并 且 把 节点 按照 它们 在 邻接 表 7 5 2 1 6 中 的 顺序 放 入 队列 中 。 
然后 我 们 得 到 7， 访 问 它 ， 并 且 把 节点 放 到 它 的 邻接 表 中 ， 如 此 继续 。 用 一 个 “忽略 新 项 ”策略 ( 右 图 ) 如 
免 重复 ， 我 们 得 到 同一 结果 ， 没 有 任何 无 关 的 队列 元 素 。 


广度 优先 搜索 和 深度 优先 搜索 都 访问 图 中 所 有 的 节点 ， 但 是 它们 的 实现 方式 大 相 径 庭 ， 
如 图 5-36 中 所 示 的 那样 。 广 度 优 先 搜索 类 似 于 一 直 搜 索 军 队 铺 开 来 覆盖 领土 ， 深 度 优 先 搜索 





图 5-36 图 遍历 树 


注 : 该 图 显示 了 深度 优先 搜索 (中 间 图 ) 和 广度 优先 搜索 (下 图 ), 以 及 在 一 个 大 型 图 搜索 到 一 半 的 状态 (上 图 )。 
深度 优先 搜索 从 一 个 节点 况 如 到 另 一 个 节点 ， 所 以 大 部 分 的 节点 都 与 另外 两 个 节点 相连 。 与 之 相对 ， 广 度 
优先 搜索 扫 过 整个 图 ， 访问 与 一 个 给 定 节点 相连 的 所 有 节点 ， 再 移动 ， 所 以 若干 节点 都 与 多 个 节点 相连 。 
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类 似 于 一 个 搜索 者 尽 可 能 深入 地 去 调查 未 知 的 地 域 ， 只 有 在 磁 到 死胡同 时 才 回 头 。 这 些 都 是 
有 意义 的 解决 问题 的 基本 范 型 ， 应 用 于 许多 计算 机 科学 领域 ， 而 不 仅仅 是 图 搜索 。 

练习 

5.92 通过 画 出 与 图 5-33〈 左 图 ) 与 图 5-34 (〈 右 图 ) 对 应 的 图 ， 显 示 递 归 深度 优先 搜索 如 何 
访 间 由 边 序列 0-2，1-4，2-5，3-6，0-4，6-0 和 1-3 ( 见 练习 3.70) 所 构造 的 图 中 的 节点 。 
5.93 ”通过 画 出 与 图 5-33 ( 左 图 ) 与 图 5-34 ( 右 图 ) 对 应 的 图 ， 显 示 基于 栈 的 深度 优先 搜索 
如 何 访问 由 边 序列 0-2，1-4，2-5，3-6，0-4，6-0 和 1-3 ( 见 练习 3.70) 所 构造 的 图 中 的 节点 。 
5.94 通过 画 出 与 图 5-33 〈 右 图 ) 与 图 5-35 ( 左 图 ) 对 应 的 图 ， 显 示 基 于 队列 的 广度 优先 搜索 
如 何 访问 由 边 序列 0-2，1-4，2-5，3-6，0-4，6-0 和 1-3 ( 见 练习 3.70) 所 构造 的 图 中 的 节点 。 
25.95 为 什么 在 性 质 5.10 中 运行 时 间 被 引 作 V+E， 而 不 是 一 个 简单 的 E? 

5.96 通过 画 出 与 图 5-33 ( 左 图 ) 与 图 5-35 ( 右 图 ) 对 应 的 图 ， 显示 当 实施 一 个 “忘记 旧 项 ” 
策略 时 ， 基 于 栈 的 深度 优先 搜索 如 何 访问 图 3-15 中 的 文本 的 示例 图 的 节点 。 

5.97 通过 画 出 与 图 5-33 ( 左 图 ) 与 图 5-35 ( 右 图 ) 对 应 的 图 ， 显 示 当 实施 一 个 “忽略 新 项 ” 
策略 时 ， 基 于 栈 的 深度 优先 搜索 如 何 访问 图 3-15 中 的 文本 的 示例 图 的 节点 。 

>5.98 ”对 于 邻接 表 表 示 的 图 实现 一 个 基于 栈 的 深度 优先 搜索 。 

25.99 ”对 于 邻接 表 表 示 的 图 实现 一 个 递归 的 深度 优先 搜索 。 


5.9 综述 


递归 位 于 早 些 时 候 的 对 计算 本 质 的 理论 研究 的 核心 。 研 究 如 何 去 把 可 用 计算 机 解决 的 问 
题 从 不 可 用 计算 机 解决 的 问题 分 离 出 来 ， 递 归 函 数 与 程序 就 在 这 种 数学 研究 中 起 到 了 一 个 中 
心 作用 。 

当然 ， 要 在 如 此 简短 的 讨论 中 达到 如 间 对 树 与 递归 的 讨论 一 样 深远 的 程度 ， 这 是 不 可 能 
公平 处 理 到 的 。 许 多 最 佳 的 递归 程序 的 例子 都 将 是 我 们 整 本 书 中 的 焦点 所 在 一 一 分 治 算法 与 
递归 数据 结构 ， 它 们 都 已 经 成 功 运 用 于 求解 广泛 的 问题 。 对 于 许多 的 应 用 来 说 ， 没 有 理由 要 
去 超出 一 个 简单 直接 的 递归 实现 ， 对 于 其 他 的 应 用 ， 我 们 将 考察 候选 的 非 递 归 实 现 和 自 底 向 
上 实现 的 来 源 出 处 。 . 

在 本 书 中 ， 我 们 的 兴趣 在 于 递归 程序 与 数据 结构 的 实际 运用 方面 。 我 们 的 目标 是 开发 一 
种 能 产生 精致 高 效 实 现 方案 的 递归 。 要 实现 这 一 目标 ， 我 们 需要 对 某 些 简 单程 序 的 危险 特别 
关心 ， 这 种 简单 程序 能 导致 函数 调用 指数 级 的 数目 或 是 不 可 能 的 识 度 嵌 套 。 除 去 这 些 缺 陷 ， 
递归 程序 与 数据 结构 都 是 很 有 吸引 力 的 ， 因 为 它们 常常 为 我 们 准备 了 归纳 的 参数 ， 这 些 参数 
能 够 使 我 们 相信 我 们 的 程序 是 正确 且 高 效 的 。 

我 们 在 整 本 书 中 使 用 树 ， 既 能 帮助 理解 程序 的 动态 性 质 ， 又 能 帮助 理解 动态 数据 结构 。 
第 12 章 至 第 15 章 ， 集 中 了 关于 显 式 树 结构 的 控制 内 容 。 在 本 章 中 描述 的 性 质 为 我 们 提供 了 基 
础 的 信息 ， 如 果 我 们 要 高 效 使 用 显示 树 结 构 就 需要 这 些 信息 。 

除了 它 在 算法 设计 的 中 心 作用 ， 递 归并 非 一 种 万 用 的 方法 。 就 如 我 们 在 树 遍历 和 图 遍历 
中 所 发 现 的 那样 ， 当 我 们 有 多 重 的 计算 任务 要 完成 时 ， 基 于 栈 的 (固有 递归 ) 算法 不 是 惟一 
选择 。 一 种 用 于 许多 问题 的 高 效 的 算法 设计 技巧 就 是 使 用 广义 队列 而 不 是 栈 实现 来 给 我 们 根 
据 主 观 标准 而 非 就 近 选 择 来 挑选 下 一 个 任务 的 自由 。 高 效 支持 这 类 操作 的 数据 结构 和 算法 是 
第 9 章 的 首要 主题 ， 当 我 们 考察 第 七 部 分 的 图 算法 时 ， 我 们 将 遇 到 许多 关于 它们 的 应 用 例子 。 
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第 6 章 基本 排序 方法 


在 研究 排序 算法 之 前 ， 我 们 先 学 习 几 种 基本 的 排序 方法 ， 这 些 排序 方法 适用 于 一 些小 规 
模 文件 或 者 具有 特殊 结构 的 文件 。 详 细 学 习 这 些 基本 的 排序 算法 有 几 点 原因 。 第 一 ， 通 过 学 
习 这 些 基 本 排序 方法 ， 可 以 了 解 排序 算法 的 相关 术语 和 基本 机 制 ， 从 而 为 学 习 更 复杂 的 算法 
打下 坚实 的 基础 。 第 二 ， 在 许多 排序 应 用 中 ， 这 些 简单 的 排序 方法 比 那些 强大 通用 的 排序 方 
法 更 有 效 。 第 三 ， 一 些 简单 的 排序 方法 能 扩展 成 更 普遍 适用 的 排序 方法 ， 或 者 有 利于 改进 更 
复杂 算法 的 效率 。 

本 章 的 目的 不 只 是 简单 地 介绍 这 些 基本 方法 ， 还 要 为 后 面 章节 学 习 的 排序 算法 构建 框架 。 
我 们 将 考察 各 种 不 同情 况 在 应 用 排序 算法 中 的 重要 因素 ， 观 察 不 同类 型 的 输入 文件 ， 比 较 各 
种 排序 方法 的 其 他 方式 以 及 学 习 它们 各 自 的 特性 。 

我 们 从 测试 排序 算法 的 一 个 简单 驱动 程序 开始 ， 来 了 解 应 该 遵循 的 约定 。 我 们 还 要 讨论 
各 种 排序 方法 的 基本 特性 ， 这 对 于 评价 特定 应 用 程序 中 所 选 的 算法 是 很 重要 的 。 本 章 将 首先 
观察 以 下 三 种 排序 方法 的 实现 : 选择 排序 、 插 入 排序 和 冒 泡 排序 ， 详 细 讨 论 这 些 算法 的 性 能 
特性 。 接 下 来 ， 考 察 希 尔 排序 。 这 个 排序 可 能 不 是 基本 排序 方法 ， 但 它 很 容易 实现 ， 并 且 与 
插入 排序 有 很 大 关系 。 在 论述 希 尔 排序 法 的 数学 特性 之 后 ， 我 们 将 沿 着 第 3 章 、 第 4 章 的 讨论 
思路 ， 深 入 研究 开发 数据 类 型 接口 和 实现 的 主题 ， 通 过 对 练习 中 的 数据 文件 进行 排序 来 扩展 
基本 算法 。 然 后 ， 我 们 讨论 不 与 数据 和 链表 排序 直接 相关 的 排序 方法 。 本 章 还 会 讨论 一 种 特 
殊 的 排序 方法 ， 这 种 排序 方法 适用 于 关键 字 值 限制 在 一 个 很 小 范围 的 情况 。 

在 许多 排序 应 用 程序 中 ， 都 会 选择 一 个 简单 的 算法 。 首 先 ， 我 们 常常 只 使 用 一 次 或 几 次 
排序 程序 。 一 旦 我 们 对 一 组 数据 进行 了 排序 ， 在 应 用 中 就 不 再 需要 使 用 这 个 排序 程序 来 处 理 
这 些 数据 了 。 如 果 一 个 基本 的 排序 方法 不 比 其 他 数据 处 理 ， 如 数据 读 入 和 读 出 要 惕 ， 就 没 必 
要 寻找 一 个 更 快 的 方法 。 如 果 需 要 排序 的 元 素 不 是 很 多 例如， 只 有 几 百 个 元 素 )， 我 们 宁愿 
实现 并 运行 一 个 简单 的 方法 ， 而 不 是 将 精力 耗费 在 系统 排序 方法 的 接口 或 实现 以 及 调试 复杂 
的 方法 上 。 其 次 ， 基 本 方法 通常 适用 于 小 型 文件 〈 例 如 ， 几 十 个 元 素 ) ， 复 杂 的 方法 会 导致 很 
高 的 开销 ， 甚 至 比 简 单 的 方法 更 慢 。 因 此 除非 我 们 处 理 相 对 大 量 的 小 文件 ， 否 则 这 个 问题 是 
不 值得 考虑 的 ， 不 过 有 这 种 需求 的 应 用 程序 也 是 常见 的 。 另 一 种 相对 容易 排序 的 文件 是 那些 
已 经 基本 排序 好 的 〈 或 者 已 经 排序 好 了 ! ) 或 者 那些 包含 大 量 重复 关键 字 的 文件 。 我 们 将 会 看 
到 ， 有 几 种 基本 方法 在 对 这 些 结构 很 好 的 文件 进行 排序 时 特别 有 效 。 

通常 ， 在 这 里 讨论 的 基本 排序 方法 ， 对 N 个 随机 组 合 的 数据 进行 排序 的 运行 时 间 与 六 成 正 
比 。 如 果 N 比 较 小 ， 运 行 时 间 就 会 比较 适中 。 正 如 刚才 所 说 的 ， 对 于 小 型 文件 和 其 他 一 些 特殊 
情况 ， 基 本 方法 的 效率 要 比 复杂 方法 高 。 不 过 本 章 讨 论 的 方法 不 适用 于 大 型 随机 组 合 的 文件 ， 
因为 即使 是 用 最 快 的 计算 机 ， 运 行 时 间 仍 然 会 巨大 。 例 外 的 是 希 尔 排序 算法 〈 见 6.6 节 )， 在 
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对 入 个 数据 进行 排序 时 ， 如 果 N 较 大 ， 则 这 种 排序 算法 只 需要 开销 比 N* 少 得 多 的 步骤 ， 并 且 可 
以 证 明 它 适用 于 中 等 大 小 的 文件 和 其 他 一 些 特殊 情况 。 


6.1 游戏 规则 


在 讨论 特定 排序 方法 之 前 ， 了 解 排序 算法 的 一 般 术 语 和 基本 假设 非常 有 用 。 我 们 将 讨论 
包含 关键 字 (key) 的 元 素 (item) 的 排序 文件 方法 。 这 些 概念 都 是 从 现代 编程 环境 中 抽象 出 
来 的 。 关 键 字 是 元 素 的 一 部 分 (通常 是 一 小 部 分 )， 用 于 控制 排序 。 排 序 方法 的 目的 是 重新 组 
合 元 素 ， 使 其 关键 字 根 据 一 些 定义 良好 的 排序 规则 (通常 是 数字 或 字母 顺序 ) 整齐 排列 。 关 
键 字 和 元 素 随 着 不 同 应 用 会 有 不 同 的 特征 ， 但 是 排序 程序 只 关心 如 何 将 关键 字 和 相关 信息 排 
列 整 齐 。 

如 果 被 排序 的 文件 适合 放 在 内 存 中 ， 则 排序 方法 称 为 “内 部 排序 ”"。 从 磁带 或 磁盘 上 对 文 
件 进行 排序 称 为 “外 部 排序 *"。 这 两 种 方法 的 主要 区 别 在 于 ， 内 部 排序 可 以 很 容易 地 访问 任何 
元 素 ， 而 外 部 排序 必须 顺序 访问 元 素 ， 或 至 少 在 大 的 数据 块 中 是 如 此 。 我 们 将 在 第 11 章 中 介 
绍 几 种 外 部 排序 方法 ， 但 是 我 们 所 讨论 的 大 部 分 算法 都 属于 内 部 排序 方法 。 

我 们 将 讨论 数组 和 链表 。 数 组 排序 和 链表 排序 同样 重要 : 在 开发 算法 时 ， 一 定 会 遇 到 一 些 

合 顺序 分 配 的 基本 任务 ， 同 样 也 会 遇 到 适合 链 式 分 配 的 任务 。 一 些 典 型 排序 方法 在 处 理 数 
组 和 往生 同样 宙 交 摘 人， 而 一 些 就 只 适合 于 其 中 一 种 。 其 他 一 些 访问 上 的 限制 也 值得 关注 。 

我 们 首先 讨论 数组 排序 。 程 序 6.1 举 例 说 明了 我 们 在 实现 时 所 要 使 用 的 一 些 约定 。 包 括 一 
个 驱动 程序 ， 它 通过 读 取 标准 输入 数据 或 产生 随机 整数 列 《由 菜 一 整数 生成 规则 指定 ) 来 填 
充 数组 ， 然后 调用 一 个 排序 函数 ， 将 数组 中 的 数据 排 好 顺序 ， 全 果 。 


3 程序 6.1 使 用 驱动 程序 的 数组 排序 的 例子 
本 程序 字 举 例 说 明了 实现 基本 数组 排序 时 的 约定 。 main 函 数 中 初始 化 了 一 个 整 型 数组 (使 
用 随机 数 或 读 取 标准 输入 )， 接 着 调用 sort 函 数 来 对 数组 排序 ， 最 后 输出 已 排 好 的 结果 。 
排序 函数 是 一 种 插入 排序 法 ( 见 6.3 节 的 详细 描述 、 例 子 和 改进 实现 )。 假 设 待 排序 的 元 素 
的 类 型 为 Item， 定 义 在 其 上 的 操作 符 有 1ess (比较 两 个 关键 字 ) 、exch (交换 两 个 元 素 ) 和 
compexch (比较 两 个 元 素 ， 如 果 需 要 ， 可 使 第 二 个 元 素 不 小 于 第 一 个 元 素 )。 本 代码 中 使 用 
typedef 和 简单 宏 实 现 整 型 的 Item。 在 6.7 节 讨论 了 其 他 的 类 型 ， 都 不 影响 sort。 
#include <stdio.h> 
#include <stdlib.h> 
typedef int Item; 
#define key(A) (A) 
#define less(A, B) (key(A) < key(B)) 
#define exch(A, B) { Item t = A; A=B; B= +t;} 
#define compexch(A, B) if (less(B, A)) exch(A, B) 
void sort(Item a[], int 1, int 工 ) 
{ int i, j; 
for (i = 1+1; i <= r; i++) 
for (j = ii j > 1; j--) 
compexch(a[j-1], a[j]); 





} 
main(int argc, char *argv[]) 
{ int i, N= atoi(argv[1]), sw = atoi(argv[2]); 
int *a = malloc(N*sizeof (int)); 
if (sw) 
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for (i = 0; i < N; i++) 
a[i] = 1000*(1.0*rand()/RAND_MAX); 

else 

while (scanf("%d", &a[N]) == 1) N++; 
sort(a, 0, N-1); 
for (i = 0; i < N; i++) Printf("%3d ", a[il]); 
printf("\n"); 

} 





由 第 3 章 和 第 4 章 可 知 ， 有 很 多 机 制 可 用 于 调整 排序 程序 ， 使 之 适用 于 其 他 类 型 的 数据 。 
我 们 将 在 6.7 节 中 详细 讨论 如 何 使 用 这 些 机 制 。 程 序 6.1 所 用 的 sort 亢 数 使 用 了 4.1 节 讨论 的 一 
个 简单 内 联 数据 类 型 ， 它 通过 其 参数 引用 待 排序 的 元 素 ， 并 对 数据 进行 一 些 简单 操作 。 通 常 ， 
这 种 方法 可 以 使 我 们 使 用 同一 代码 对 其 他 类 型 的 元 素 进行 排序 。 例 如 ， 如 果 程序 6.1 的 main 函 
数 中 产生 、 存 储 、 打 印 随机 数列 的 代码 改 为 处 理 浮 点 数 而 不 是 整数 ， 在 main 函 数 之 外 我 们 只 
需 把 对 Item 的 typedef 定 义 从 int 型 改 为 f10at 型 (对 sort 函 数 不 需 作 任 何 改变 )。 为 了 提供 这 
种 灵活 性 (同时 要 明确 地 声明 那些 存储 元 素 的 变量 )， 我 们 的 sort 实 现 将 对 待 排 序 的 未 定义 的 
元 素 类 型 作为 Item 处 理 。 在 这 里 ， 我 们 可 以 将 Item 当 作 整 型 int 或 者 浮 点 型 f10at ， 在 6.7 节 ， 
我 们 将 详细 讨论 数据 类 型 的 实现 ， 使 用 在 第 3 章 和 第 4 章 讨论 过 的 机 制 来 使 排序 程序 可 适用 于 
任意 类 型 的 元 素 ， 包 括 浮 点 数 、 字 符 数 组 和 其 他 不 同类 型 的 关键 字 。 

我 们 可 以 用 本 章 不 同 的 数组 排序 函数 或 第 7 章 至 第 10 章 的 数组 排序 函数 取代 sort 函 数 。 这 
些 函数 中 都 假定 待 排序 的 元 素 类 型 是 Item 类 型 ， 都 包括 三 个 参数 : 数组 、 待 排序 子 数组 的 左 
边界 和 右边 界 。 它 们 都 使 用 less 来 比较 元 素 中 的 关键 字 ， 并 使 用 exch 或 compexch 函 数 来 交换 
元 素 。 为 了 区 分 排序 算法 ， 我 们 会 对 不 同 的 排序 算法 使 用 不 同 的 名 字 。 对 它们 重新 命名 ， 修 
改 驱 动 程序 或 者 在 像 程序 6.1 那 样 的 客户 端 程 序 中 用 函数 指针 调用 排序 算法 都 很 简单 ， 无 需 改 
变 排序 算法 实现 中 的 任何 代码 。 

这 些 约定 使 我 们 可 以 检查 多 种 简练 的 数组 排序 算法 的 实现 。 在 6.7 节 和 6.8 节 中 ， 我 们 将 讨 
论 一 个 示例 程序 ， 它 说 明了 如 何 更 一 般 性 地 使 用 这 个 实现 和 使 用 各 种 不 同 数据 类 型 。 虽 然 我 
们 要 讨论 许多 方面 的 内 容 ， 但 我 们 把 重点 将 放 在 算法 学 问题 上 ， 我 们 现在 开始 讨论 。 

程序 6.1 中 所 使 用 的 排序 函数 是 插入 排序 的 一 种 变型 ， 我 们 将 在 6.3 节 中 详细 讨论 。 因 为 它 
只 使 用 了 比较 一 交换 操作 ， 它 是 非 适 应 性 排序 的 一 个 例子 ， 即 它 所 执行 的 操作 序列 是 独立 于 
数据 的 顺序 。 对 比 之 下 ， 自 适应 的 排序 执行 不 同 的 操作 序列 ， 与 比较 的 结果 (1Tess 操 作 ) 有 
关 。 我 们 关注 非 适应 性 的 排序 的 原因 是 这 些 方 法 适合 于 硬件 实现 〈 见 第 11 章 ) ， 但 我 们 考虑 的 
大 多 数 一 般 目的 的 排序 方法 都 是 适应 性 的 。 1 

通常 ， 我 们 所 感 兴趣 的 性 能 参数 是 排序 算法 的 运行 时 间 。 在 6.2~6.4 节 中 讨论 的 选择 排序 、 
插入 排序 和 冒 泡 排序 对 和 个 元 素 进行 排序 时 ， 执 行 时 间 均 与 N 成 正比 ， 这 点 会 在 6.5 节 中 讨论 。 
而 在 第 7 章 至 第 10 章 进一步 讨论 的 排序 方法 的 执行 时 间 与 N log N 成 正比 ， 对 于 小 规模 的 或 在 
某 种 特殊 情况 下 ， 这 些 排 序 算法 的 效率 通常 比 不 上 我 们 这 里 讨论 的 基本 方法 。 在 6.6 节 中 ， 我 
们 将 介绍 一 个 更 先进 的 方法 ( 希 尔 排 序 )， 它 的 执行 时 间 可 与 N”? 成 正比 或 更 低 。 在 6.10 节 中 ， 
将 介绍 一 种 特别 的 方法 (关键 字 一 索引 排序 )， 对 某 些 类 型 的 关键 字 ， 这 种 方法 的 执行 时 间 与 
NN 成 正比 。 

上 一 段 的 分 析 结 果 是 通过 列举 算法 所 执行 的 基本 操作 (比较 和 交换 ) 而 得 到 的 。 如 2.2 节 
所 讨论 的 ， 我 们 还 需要 考虑 这 些 操作 的 开销 ， 一 般 集 中 在 执行 最 频繁 的 操作 上 (算法 的 内 部 
循环 ) 。 我 们 的 目的 是 开发 高 效 合理 的 实现 的 有 效 算法 。 为 此 ， 我 们 不 仅 要 避免 内 部 循环 中 不 
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必要 的 开销 ， 还 要 在 可 能 时 设法 减少 内 部 循环 中 的 指令 。 一 般 地 ， 减 少 应 用 程序 开销 的 最 好 
方法 是 改 用 一 种 更 高 效 的 算法 ， 另 一 种 方法 是 缩短 内 部 循环 。 对 于 这 两 种 方法 ， 我 们 在 排序 
算法 中 都 会 详细 讨论 。 

排序 算法 所 要 消耗 的 额外 内 存 空 间 是 我 们 需要 讨论 的 第 二 个 重要 因素 。 基 本 上 ， 可 把 算 
法 分 为 二 种 类 型 : 一 种 是 在 原 位 进行 排序 的 算法 ， 它 除了 使 用 一 个 小 堆栈 或 表 外 ， 不 需要 使 
用 任何 额外 内 存 空间 ， 一 种 是 使 用 链表 表示 或 指针 、 数 组 索引 来 引用 数据 ， 因 此 需要 额外 的 
内 存 空间 存储 这 NN 个 指针 或 索引 ， 一 种 是 需要 足够 的 额外 空间 来 存储 要 排序 的 数组 的 副本 。 

我 们 经 常会 对 一 些 有 多 个 关键 字 的 元 素 进行 排序 一 一 我 们 还 可 能 对 同一 组 元 素 按 不 同 关 
键 字 进行 多 次 排序 。 在 这 种 情况 下 ， 我 们 需要 知道 所 使 用 的 排序 方法 是 否 具 有 以 下 特性 : 

定义 6.1 如 果 排 序 后 文件 中 具有 相同 关键 字 的 元 素 的 相对 位 置 保持 不 变 ， 称 一 个 排序 方 
法 是 稳定 的 。 

例如 ， 将 一 个 按 字母 顺序 的 包含 毕业 年 Adams 





1 

份 的 学 生 名 册 重新 按 年 份 进行 排序 ， 稳 定 的 Br 
排序 方法 得 到 的 列表 中 ， 在 同一 个 班级 的 学 Jackson 2 
生 仍 然 按 字 母 顺 序 排列 ， 而 一 个 不 稳定 的 排 Bnes 4 
序 方法 所 得 到 的 列表 可 能 没有 丝毫 原来 按 字 Thompson 4 
母 顺 序 排列 的 痕迹 。 图 6-1 就 是 这 样 的 一 个 Wo on 2 
例子 。 通常 ， 不 熟悉 稳定 性 的 人 第 一 次 碰见 Wilson 3 
这 种 情况 时 ， 会 很 惊讶 于 不 稳定 的 排序 算法 
似乎 把 数据 弄 得 很 乱 。 SS 

本 章 所 讨论 的 基本 排序 方法 有 几 种 (不 和 
过 不 是 所 有 ) 是 稳定 的 。 相 反 ， 我 们 在 以 后 Jackson 2 
章节 讨论 的 较 复 杂 的 排序 方法 中 大 部 分 (不 wo 1 
是 所 有 的 ) 是 不 稳定 的 。 如 果 稳 定性 是 必需 wise 3 
的 ， 我 们 可 以 通过 在 排序 前 为 各 关键 字 添 加 Thompson 4 
小 索引 或 使 用 其 他 方法 加 长 排序 的 关键 字 ， Brown 4 
以 此 强制 排序 方法 稳定 。 这 样 做 相当 于 结合 
图 6-1 的 两 个 关键 字 进 行 排序 ， 改 用 一 个 稳 Adams 1 
定 的 算法 会 比较 好 。 我 们 很 容易 会 把 算法 的 Smith 1 
稳定 性 当 作 是 必然 的 ， 事 实 上 ， 如 果 不 使 用 Dak 
额外 的 时 间或 空间 ， 后 面 章 节 中 讨论 的 排序 Washington 2 
方法 很 少 是 稳定 的 。 White 3 

如 上 面 提 过 的 ， 排 序 程序 通常 使 用 两 种 po 4 
方法 之 一 来 访问 元 素 ， 访 问 关键 字 来 进行 比 Jo 4 
较 ， 或 者 访问 整个 元 素来 移动 。 如 果 需 要 访 Thompson 4 
问 的 元 素 比较 大 ， 通 过 间接 排序 方法 来 避免 
混 洗 是 比较 明知 的， 我们 不 是 直接 对 元 素 进 图 6-1 稳定 排序 示例 
行 重新 安排 ， 而 是 使 用 一 个 指针 数组 (或 索 注 : 可 以 对 任 一 关键 字 进 行 排序 。 假设 开始 时 按 第 一 关键 
引 )， 使 第 一 个 指针 指向 最 小 的 元 素 ， 第 二 字 排 序 (顶部 列表 )。 对 第 二 个 关键 字 进 行 不 稳定 排 


I ; 人 序 不 会 保持 带 有 重复 关键 字 的 记录 的 相对 顺序 (中 间 
个 指针 指向 次 小 的 元 素 ， 以 此 类 推 。 我 们 可 列表 )。 而 稳定 的 排序 方法 能 够 保持 它们 的 相对 位 置 


以 将 关键 字 保 存在 元 素 中 (如果 关键 字 比 较 (底部 列表 )。 
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大 ) 或 者 保存 在 指针 中 〈 如 果 关 键 字 比较 小 ) 。 我 们 可 以 在 排序 后 重新 安排 元 素 ， 不 过 通常 不 
需要 这 样 ， 因 为 我 们 已 经 可 以 按 顺 序 (间接 地 ) 访问 这 些 数据 了 。 我 们 会 在 6.8 节 中 讨论 间接 
排序 。 

练习 

56.1 一 种 儿童 排序 玩具 包含 i 张 卡 ， 每 张 卡 可 一 一 对 应 挂 在 某 个 钉子 上 ，i 从 1~5。 编 写 一 个 算 
法 把 卡片 挂 到 合适 的 钉子 上 ， 假 设 不 可 以 从 卡 上 看 出 它 与 哪个 钉子 对 应 (必需 通过 尝试 是 否 
适合 判断 )。 

6.2 一 种 纸牌 游戏 要 求 将 桌 上 的 纸牌 按 花色 排序 ( 按 黑 桃 、 红 心 、 梅 花 、 方 块 这 样 的 顺序 )， 
每 种 花色 中 又 按 大 小 排序 。 叫 几 个 朋友 来 玩 这 个 游戏 (相互 洗 牌 )， 记 下 他 们 所 使 用 的 方法 。 
6.3 思考 如 何 对 一 堆 牌 排序 ,条件 是 所 有 上 牌 正面 朝 下 排 成 一 行 ， 允许 做 的 是 检查 两 张 牌 的 值 ， 
必要 时 就 交换 它们 的 位 置 。 

06.4 思考 如 何 对 一 堆 牌 排序 ， 条 件 是 所 有 牌 琶 成 一 堆 ， 允 许 做 的 是 能 察看 最 上 面 两 张 牌 的 值 ， 
必要 时 进行 交换 ， 然 后 将 最 上 面 一 张 牌 移 到 牌 底 。 

6.5 列 出 对 三 个 数据 进行 排序 时 所 进行 的 三 个 比较 -交换 操作 序列 〈 见 程序 6.1) 。 

96.6 列 出 对 四 个 数据 进行 排序 时 所 进行 的 五 个 比较 一 交换 操作 序列 。 

“6.7 ”编写 一 个 客户 端 程序 来 检查 所 使 用 的 排序 方法 是 否 稳定 。 

6.8 在 sort 操 作 后 检查 数组 是 否 排 了 序 并 不 能 保证 排序 算法 正确 ， 为 什么 ? 

“6.9 ”编写 一 个 性 能 驱动 客户 程序 ， 对 不 同 大 小 的 文件 多 次 运行 sort 排 序 ， 计 算 每 次 运行 所 使 
用 的 时 间 ， 然 后 将 平均 运行 时 间 打 印 出 来 或 图 示 出 来 。 

“6.10 ”编写 一 个 练习 驱动 客户 端 程序 ， 对 于 在 实际 应 用 中 可 能 出 现 的 复杂 或 特殊 的 数据 执行 
Sort 程序 。 例 子 包括 原来 已 排 好 序 的 文件 、 逆 序 文件 、 所 有 关键 字 都 相同 的 文件 、 只 有 两 种 
不 同 值 组 成 的 文件 和 大 小 为 0 或 1 的 文件 。 


6.2 选择 排序 

最 简单 的 一 种 排序 算法 的 工作 过 程 如 下 。 首 先 ， 选 出 数组 中 最 小 的 元 素 ， 将 它 与 数组 中 
第 一 个 元 素 进行 交换 。 然 后 找 出 次 小 的 元 素 ， 并 将 它 与 数组 中 第 二 个 元 素 进行 交换 。 按照 这 
种 方法 一 直 进 行 下 去 ， 直 到 整个 数组 排 完 序 。 这 种 排序 方法 叫做 选择 排序 ， 因 为 它 是 通过 不 
断 选 出 剩余 元 素 中 最 小 元 素来 实现 的 。 图 6-2 显 示 了 该 算法 的 一 个 示例 。 
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选择 排序 示例 

注 : 本 例 的 第 一 遍 结果 不 变 ， 因 为 数组 中 没有 一 个 元 素 比 在 左边 的 A 小 。 第 二 遍 中 ， 另 一 个 A 是 剩余 元 素 中 最 小 
的 元 素 ， 所 以 将 它 与 在 第 二 位 的 S 交 换 位 置 。 接 着 ， 第 三 遍 中 接近 中 间 的 已 与 第 三 位 的 DO 交换 位 置 ， 然 后 ， 
第 四 遍 ， 另 一 个 BE 与 在 第 四 位 的 R 交 换 位 置 ， 以 此 类 推 。 
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程序 6.2 是 依照 先前 约定 的 一 个 选择 排序 程序 。 内 部 循环 只 是 执行 了 将 当前 元 素 与 先前 找 
到 的 最 小 元 素 进 行 比较 的 操作 (加 上 其 他 必需 的 代码 ， 包 括 将 当前 元 素 索 引 增 1 和 检查 它 是 否 
超出 了 数组 界限 的 操作 ) ， 要 更 简单 不 太 可 能 。 移 动 元 素 的 操作 是 在 内 部 循环 以 外 执行 的 : 
每 次 交换 都 将 一 个 元 素 放 在 它 最 终 的 位 置 上 ， 所 以 交换 的 次 数 是 N-1 (最 后 一 个 元 素 不 需要 
交换 ) ， 因 此 ， 执 行 的 时 间 由 比较 操作 的 数目 决定 。 在 6.5 节 中 ， 我 们 会 得 到 这 个 数目 与 Nz 成 
正比 ， 并 且 会 进一步 讨论 如 何 预知 整个 运行 时 间 和 如 何 将 选择 排序 与 其 他 基本 排序 方法 进行 
比较 。 
2 
对 于 1~r 一 1 内 i 值 ， 将 a[i] 与 a[i] ，…，a[r] 中 最 小 的 元 素 交 换 位 置 。 随 着 索引 i 从 左 到 
右 的 遍历 ， 在 它 左边 的 元 素 均 已 处 在 数组 正确 的 位 置 中 (而且 不 再 会 被 访问 )， 所 以 当 i 到 达 
了 最 右边 时 数组 就 排 好 序 了 。 


void selection(Item a[], int 1, int r) 
{ int i, j; 
for (i = 1; i < r; i++) 
{ int min = i; 
for (j = i+l; j <= r; j++) 
if (less(a[j] ，a[min])) min = j; 
exch(a[i] ，a[min] ) ; 
} 
} 


选择 排序 有 一 个 缺点 ， 它 的 运行 时 间 对 文件 中 已 有 序 的 部 分 依赖 较 少 。 从 文件 中 选 出 最 
小 元 素 的 每 遍 操 作 过 程 ， 并 没有 给 出 下 一 遍 要 找 的 最 小 元 素 的 位 置 的 相关 消息 。 例 如 ， 使 用 
该 排序 方法 的 用 户 可 能 会 很 奇怪 地 发 现 ， 该 程序 对 已 排 好 序 的 文件 或 各 元 素 都 相同 的 文件 排 
序 所 花 的 时 间 与 对 随机 排列 的 文件 排序 所 花 的 时 间 基 本 相同 。 我 们 以 后 会 看 到 ， 其 他 方法 会 
比较 好 地 利用 了 输入 文件 中 元 素 的 已 有 顺序 。 

虽然 选择 排序 比较 简单 并 且 执 行 时 间 上 具有 强迫 性 ， 但 它 对 某 一 类 重要 文件 的 排序 效率 
要 比 其 他 方法 好 : 对 于 元 素 比 较 大 ， 关 键 字 又 比较 小 的 文件 ， 应 该 选择 该 方法 ， 而 其 他 算法 
移动 数据 的 步 数 都 比 选择 排序 要 多 〈 见 6.5 节 的 性 质 6.5) 。 
练习 
>6.11 按照 图 6-2 的 风格 ， 显 示 选 择 排序 对 以 下 例子 的 排序 过 程 : 

EASYQUESTION 

6.12 ”选择 排序 中 ， 最 多 需要 执行 几 次 交换 操作 ， 包 括 所 有 特别 的 数据 。 平 均 次 数 又 是 多 少 ? 
6.13 ”给 出 一 个 含有 N 个 元 素 文件 的 例子 ， 热 行 选择 排序 时 ， 使 ax[j] < a[min] 的 检测 结果 为 
false 的 次 数 最 大 化 (因此 min 要 更 新 )。 
06.14 选择 排序 是 否 稳定 ? 


6.3 插入 排序 


在 桥牌 中 人 们 通常 使 用 的 排序 方法 是 ， 每 次 只 考虑 一 张 牌 将 牌 插入 已 经 排 好 了 序 的 牌 
的 适当 位 置 中 (保持 有 序 )。 在 计算 机 应 用 中 ， 为 了 插入 新 数据 ， 先 将 较 大 的 元 素 一 个 一 个 向 
右 移动 ， 然 后 将 新 数据 插入 空位 中 。 程 序 6.1 中 的 sort 程 序 就 是 使 用 了 这 种 方法 ， 这 种 排序 方 
法 称 为 插入 排序 。 
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和 选择 排序 一 样 ， 排 序 过 程 中 当前 索引 左边 的 元 素 都 是 排 好 序 的 ， 不 过 它们 不 是 处 于 最 
化 的 位 置 上 ， 因 为 之 后 它们 还 需要 进行 移动 来 为 更 小 的 数据 腾 出 空间 。 不 过 当 索 引 移 到 最 右 
边 时 ， 数 组 就 完全 排 好 序 了 。 图 6-3 显 示 了 该 方法 作用 在 一 个 示例 上 的 过 程 。 


ae 


@ocoag@ooo 
人 -mA 


mMo0nn--Zz0OnnWYnn 


S 
© 
0 
2 
® 
E 
W 
A 
A 
A 
A 
和 A 


广 产 过 之 OPWT1ZZZZZZ 
祷 守 之 人 ODNWNWAHONDNDONNNON 
zzoIno1Ammmmmmmm 
VBNAXPPPP 和 PPP 
情 WAKO 
WHAXKTUTTUVTYUVTYTVUYD 
bn Be I ed i eh a a ne i 
xxmmmmmmmmmmmmmm 


OO0OUDW CRKRKKRKRKKAX 


A 
A 
A 
A 
A 
A 
A 
A 
A 
A 
A 
A 
A 
A 
A 
A 


HOO" ~ ZODn 


- -OOOzo00nn+4 


机 本 入 和 措 隐 有 全 分 一 





图 6-3 插入 排序 示例 
注 : 在 插入 排序 的 第 一 遍 中 ， 在 第 二 位 的 8 比 A 大 ， 所 以 它 不 需要 移动 。 第 二 遍 ， 第 三 位 的 O 与 S 交 换 位 置 ， 
AOS 成 为 排 好 序 的 序列 ， 以 此 类 推 。 图 中 ， 既 没有 打 阴 影 也 没有 打 图 的 元 素 都 向 右 移 了 一 位 。 

程序 6.1 中 的 插入 排序 实现 是 很 直接 的 但 不 高 效 。 我 们 现在 考虑 三 种 方法 来 对 它 进行 改善 ， 
以 举例 说 明 在 执行 时 常会 碰见 的 问题 : 我 们 希望 代码 既 简 洁 又 高 效 ， 不 过 有 时 是 很 难 兼顾 两 
者 的 ， 所 以 我 们 必须 尽量 得 出 一 个 平衡 。 首 先 编辑 一 个 普通 的 程序 ， 然 后 通过 一 系列 修改 来 
尝试 着 改进 它 ， 测 试 每 次 修改 的 效率 (和 正确 性 ) 。 

首先 ， 当 碰 到 一 个 关键 字 ， 它 不 大 于 正 被 插入 的 数据 项 的 关键 字 时 ， 就 停止 执行 
compexch 操 作 ， 因 为 数组 左边 子 序列 是 已 排 好 序 的 。 明 确 地 说 ， 当 条 件 1ess(a[j-1]，a[j]) 
为 真 时 ， 我 们 可 以 中 断 程序 6.1 中 的 sort 函 数 的 内 部 for 循 环 过 程 。 这 个 修改 使 插入 排序 成 为 
一 种 适应 性 的 排序 方法 ， 并 对 随机 排序 关键 字 的 排序 时 间 降 低 了 大 约 1/2 ( 见 性 质 6.2)。 

根据 前 一 段 所 描述 的 改进 方法 ， 我 们 在 两 种 情况 下 可 终止 内 部 循环 我 们 可 以 使 用 
while 循 环 改写 代码 ， 更 清晰 地 反映 该 特性 。 一 个 更 细致 的 改进 是 ，j > 1 判断 通常 是 无 用 的 : 
实际 上 ， 它 只 有 当 所 要 插入 的 元 素 目 前 是 最 小 的 且 要 插入 数组 最 前 端 时 才 为 真 。 通 常 的 改进 
方法 是 将 要 排序 的 关键 字 放 在 a[1] 到 a[N] 中 ，a[0] 中 存放 一 个 观察 哨 关 键 字 (sentinel key)， 
并 设 它 为 数组 中 最 小 的 元 素 。 这 样 ， 测 试 是 否 遇 到 一 个 较 小 关键 字 同 时 就 测试 了 这 两 个 条 件 ， 
使 内 部 循环 更 小 ， 程 序 运 行 得 更 快 。 

观察 哨 关键 字 有 时 难以 使 用 : 也 许 是 最 小 可 能 值 难于 定义 ， 也 可 能 调用 程序 没有 空间 包 
含 这 个 额外 的 关键 字 。 程 序 6.3 显 示 了 一 个 关于 这 两 个 问题 的 插入 选择 示例 : 第 一 步 直接 将 关 
键 字 最 小 的 元 素 放 在 第 一 位 。 接 着 ， 对 剩 下 的 数组 进行 排序 ， 将 数组 中 第 一 个 且 最 小 的 元 素 
当 作 了 观察 哨 。 我 们 在 代码 中 尽量 避免 使 用 观察 哨 ， 因 为 显 式 测试 更 容易 理解 ， 但 使 用 观察 
哨 可 以 使 程序 更 简单 和 效率 更 高 时 ， 我 们 也 要 注意 。 


程序 6.3 插入 排序 
这 段 代 码 是 对 程序 6.1 的 sort 实 现 的 一 种 改进 ， 包 括 : (i) 首先 将 数组 中 最 小 的 元 素 放 在 
第 一 位 ， 这 元 素 可 以 当 作 是 观察 哨 ， (ii) 在 内 部 循环 中 ， 它 只 是 做 一 个 简单 赋值 ， 而 不 执行 
交换 操作 ， (iii) 当 元 素 插 入 到 正确 的 位 置 后 就 终止 内 部 循环 。 对 每 个 :1， 通 过 将 a[1] ，…， 
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a[i-1] 中 Fka[i] 元 素 要 大 的 元 素 向 右 移动 一 位 ， 将 a[i] 插 入 正确 的 位 置 ， 这 样 来 实现 对 a[1]，…， 
a[i] 的 排序 。 
void insertion(Item a[], int 1, int r) 
{ int i; 
for (i = r; i > 1; i--) compexch(a[i-1], a[i]); 
for (i = 1+2; i <= r; i++) 
{ int j = i; Item v = al[il; 
while (less(v, a[j-1])) 
{ a[j] = a[j-1]; j~-; } 
a[lj] = vy; 


} 


第 三 个 改进 方法 是 考虑 去 掉 内 部 循环 中 无 关 的 操作 。 这 点 中 注意 的 是 对 相同 元 素 的 多 次 
交换 是 低 效 的 。 如 果 有 两 个 或 两 个 以 上 的 交换 ， 则 有 

t = a[j]; a[j] = a[j-1i]; a[j-1] = t; 
接着 是 

t = a[j-1]; a[j-1] = a[j-2]; a[j-2] = t; 

等 等 。t 的 值 在 两 次 操作 序列 间 并 没 改变 ， 对 它 存 储 是 浪费 时 间 ， 又 在 接 下 的 交换 中 将 它 读 出 。 
程序 6.3 将 较 大 的 元 素 一 个 个 向 右 移 一 位 而 不 是 进行 交换 ， 这 样 就 避免 了 在 这 点 上 浪费 时 间 。 

程序 6.3 的 插入 排序 法 比 程序 6.1 中 的 效率 要 高 (在 6.5 节 ， 我 们 会 了 解 到 几乎 是 两 倍 的 效 
率 )。 本 书 中 ， 我 们 既 关 心 优雅 高 效 的 算法 ， 也 关心 优雅 高 效 的 执行 过 程 。 在 这 点 上 ， 基 本 算 
法 差别 不 大 我 们 可 将 程序 6.1 的 sort 国 数 当 作 非 适 应 性 播 入 排序 。 对 算法 特性 的 清楚 了 解 
是 对 应 用 程序 执行 高 效 算 法 的 最 佳 指导 。 

和 选择 排序 不 同 的 是 ， 播 入 排序 的 运行 时 间 和 输入 文件 数据 的 原始 排列 顺序 密切 相关 。 
例如 ， 如 果 文 件 较 大 ， 并 且 关 键 字 已 经 排 好 序 (或 几乎 排 好 序 )， 插 入 排序 比 选择 排序 要 快 。 
我 们 会 在 6.5 节 中 更 详细 地 比较 这 两 种 算法 。 
练习 
>6.15 ”按照 图 6-3 的 风格 ， 显 示 使 用 播 入 排序 对 下 列 文 件 进行 排序 的 过 程 。 

EASYQUESTION 
6.16 ”编写 插入 排序 执行 程序 ， 其 中 内 部 循环 使 用 while 语 名 ， 并 且 按 书 中 描述 的 那样 在 两 种 
条 件 之 一 成 立时 终止 循环 。 
6.17 ”对 练习 6.16 中 while 循 环 的 每 种 条 件 ， 描 述 一 个 有 NN 个 元 素 的 文件 ， 使 当 循 环 结束 时 条 
件 总 为 假 。 
o06.18 插入 排序 是 否 稳 定 ? 
6.19 ”给 出 非 适应 性 选择 排序 的 一 种 实现 ， 使 用 程序 6.3 中 第 一 个 for 循 环 语句 来 寻找 最 小 的 
元 素 。 
6.4 冒 泡 排序 

置 泡 排 序 是 许多 人 首先 学 习 的 第 一 个 排序 算法 ， 因 为 它 非常 简单 : 遍历 文件 ， 如 果 近 邻 
的 两 个 元 素 大 小 顺序 不 对 ， 就 将 两 者 交换 ， 重 复 这 样 的 操作 直到 整个 文件 排 好 序 。 冒 泡 排序 


最 重要 的 特点 是 容易 实现 ， 不 过 它 是 否 比 插入 排序 或 选择 排序 更 容易 实现 还 没有 定论 。 冒 泡 
排序 的 执行 速度 比 另外 两 种 排序 方法 要 慢 ， 不 过 为 了 完整 性 我 们 还 是 对 它 进行 简要 的 讨论 。 
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假设 我 们 都 是 将 文件 元 素 从 右 移 到 左 的 。 第 一 遍 中 ， 当 遇 到 最 小 的 元 素 时 ， 将 它 与 左边 
元 素 逐 个 交换 ， 直 到 将 最 小 的 元 素 移 到 队列 的 最 左边 。 然 后 第 二 遍 中 ， 将 第 二 小 的 元 素 放 到 
队列 左边 第 二 位 中 ， 以 此 类 推 。 因 此 ， 一共 需 要 N 遍 。 冒 泡 排 序 实际 上 是 一 种 选择 排序 ， 但 需 
开销 更 多 工作 将 每 个 元 素 放 到 合适 的 位 置 。 程 序 6.4 是 一 个 示例 ， 图 6-4 显 示 了 一 个 例子 的 执行 
过 程 。 

ee 

对 于 1~r 一 1 内 的 i 值 ， 内 部 循环 (j) 通过 从 右 到 左 遍历 元 素 ， 对 连续 的 元 素 执行 比较 - 交 
换 操 作 ， 实 现 将 a[1] ，…，a[r] 中 最 小 的 元 素 放 到 a[i] 中 。 在 所 有 的 比较 操作 中 ， 最 小 的 元 
素 都 要 移动 ， 所 以 它 就 像 是 泡 泡 那 样 “ 冒 ”到 最 前 端 。 和 插入 排序 类 似 ， 随 着 索引 i 从 左 到 右 ， 
在 i 左边 的 元 素 都 已 处 在 最 后 的 正确 位 置 上 。 

void bubble(Item a[], int 1, int r) 

{ int i, j; 
for (i= 1; i < r; i++) 
for (j = r; j > i; j--) 
compexch(a[j-1] ，a5j]y) ; 
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图 6-4 冒 泡 排序 示例 
注 ， 在 冒 泡 排序 中 ， 关 键 字 值 小 的 元 素 移 到 了 左边 。 随 着 从 右 到 左 排 序 ， 每 个 关键 字 和 左边 的 进行 交换 直到 遇 
见 一 个 更 小 的 。 第 一 遍 中 ，E 和 L，P，M 交 挨 ， 直 到 遇见 A; 接着 ，A 移 到 文件 的 开始 处 ， 在 已 经 在 第 一 位 
的 A 前 停 住 。 置 泡 排序 中 ， 第 i 遍 后 ， 大 小 排序 i 的 元 素 到 达 了 它 最 终 的 位 置 ， 这 点 和 插入 排序 一 样 ， 而 其 他 
的 元 素 也 不 断 地 向 它们 最 终 的 位 置 移 近 。 
我 们 可 以 像 在 6.3 节 中 对 插入 排序 那样 〈 见 练习 6.25) ， 通 过 对 内 部 循环 进行 改进 来 加 快 程 
序 6.4 的 执行 速度 。 实 际 上 ， 通 过 比较 代码 ， 可 以 发 现 程序 6.4 和 程序 6.1 中 的 非 适 应 性 插入 排 
序 方法 很 像 。 两 者 不 同 的 是 ， 内 部 for 循 环 中 ， 播 和 排序 是 从 左边 〈 已 排 好 的 序列 ) 向 右 移动 ， 
冒 泡 排序 是 从 右边 (未 排 好 序 的 序列 ) 向 左 移动 。 
程序 6.4 只 使 用 了 compexch 操 作 ， 因 此 它 是 非 适 应 性 的 。 不 过 我 们 可 以 对 它 进行 改进 使 它 
运行 得 更 高 效率 : 通过 测试 文件 是 否 已 排 好 序 ， 当 其 中 一 步 中 已 没有 进行 任何 交换 操作 ， 即 
文件 已 经 排 好 序 ， 就 可 以 终止 外 部 循环 。 做 了 这 项 改进 后 ， 就 会 提高 冒 泡 排序 对 某 类 数据 的 
运行 效率 ， 不 过 通常 它 的 效率 提高 比 不 上 能 中 断 内 部 循环 的 插入 排序 ， 如 6.5 节 中 详细 讨论 的 
那样 。 
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练习 

>6.20 ”按照 图 6-4 的 风格 ， 显 示 使 用 冒 泡 排序 对 下 列 文件 进行 排序 的 过 程 。 
EASYQUESTION 

6.21 给 出 一 个 例子 ， 使 执行 冒 泡 排 序 时 ， 所 需要 执行 的 交换 操作 的 次 数 达 到 最 大 。 

06.22 冒 泡 排 序 是 否 稳定 ? 

6.23 ”解释 冒 泡 排序 为 什么 比 练习 6.19 中 描述 的 非 适 应 性 选择 排序 更 好 。 

。6.24 ”进行 实验 来 确定 ， 当 在 冒 泡 排 序 中 加 入 一 个 测试 来 终止 排 好 序 的 文件 时 ， 对 随机 N 个 数 

据 项 进行 排序 可 以 节省 多 少 遍 。 

6.25 ”开发 冒 泡 排序 的 一 种 有 效 实现 ， 使 在 内 循环 中 执行 尽 可 能 少 的 指令 。 确 信 你 对 程序 的 

“改进 ”不 会 降低 程序 的 速度 。 


6.5 基本 排序 方法 的 性 能 特征 


选择 排序 、 插 入 排序 和 冒 泡 排序 在 最 坏 和 平均 情况 下 都 是 二 次 算法 ， 而 且 它们 都 不 需要 
额外 的 内 存 空间 。 因 此 ， 它 们 的 执行 时 间 只 相差 一 个 常数 因子 ， 不 过 它们 执行 上 有 很 大 差别 ， 
如 图 6-5 至 图 6-7 所 示 。 
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图 6-5 插入 排序 和 选择 排序 的 动态 特性 
注 : 在 随机 排列 上 执行 插入 排序 〈 左 图 ) 和 选择 排序 ( 右 图 ) 的 这 些 快照 说 明了 每 种 方法 的 执行 过 程 。 这 里 用 
小 点 表示 要 排序 的 afi] 元 素 ， 在 排序 前 ， 小 点 是 均匀 分 布 的 ; 排序 后 ， 形 成 了 一 条 从 左下 方 到 右上 方 的 对 
角 线 。 插 入 排序 不 能 预知 各 点 在 数组 中 的 最 终 位 置 ;而 选择 排序 则 不 会 改变 已 排 好 序 的 点 的 位 置 。 
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图 6-6 基本 排序 的 比较 操作 和 交换 操作 


注 : 该 图 显示 了 插入 排序 、 选 择 排序 和 置 泡 排 序 在 对 文件 进行 排序 的 过 程 中 的 差别 。 用 线段 集合 表示 要 排序 的 
文件 ， 根 据 线段 角度 进行 排序 。 每 步 中 黑 线 表 示 需 要 访问 的 元 素 ， 友 线 表示 不 需要 访问 的 元 素 。 对 于 播 入 
排序 (左边 )， 每 步 中 要 插入 的 元 素平 均 要 向 前 移动 已 排 好 序 的 数列 的 一 半 长 度 。 选 择 排 序 (中 间 ) 和 置 泡 
排序 (右边 ) 每 步 中 事 要 访问 所 有 尚未 排序 的 数据 来 找 出 下 一 个 最 小 的 数据 ， 两 者 不 同 的 地 方 是 冒 泡 排序 
将 所 遇见 的 相 邻 的 顺序 不 对 的 元 素 进行 交换 ， 而 选择 排序 只 是 将 最 小 的 元 素 交 换 到 相应 位 置 。 这 点 不 同 使 
冒 泡 排序 中 尚未 排序 的 数列 逐渐 趋向 排 好 序 。 
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图 6-7 两 种 冒 泡 排序 的 动态 特征 


注 : 标准 的 冒 泡 排序 ( 左 图 ) 执行 过 程 和 选择 排序 相似 ， 每 步 中 都 将 一 个 元 素 放 到 合适 的 位 置 中 ， 不 过 它 还 对 
数组 的 其 他 部 分 进行 菜 种 程度 的 不 均匀 的 排序 。 如 果 对 数组 不 断 替 换 从 左 到 右 和 从 右 到 左 的 扫描 方向 ， 这 
种 冒 泡 排 序 称 为 拉动 排序 〈 右 图 ) ， 这 种 方法 的 执行 效率 更 高 ( 见 练习 6.30)。 


通常 ， 排 序 方法 的 运行 时 间 是 和 算法 所 执行 的 比较 次 数 、 元 素 移 动 或 交换 的 次 数 成 正比 
的 。 对 于 随机 输入 数据 来 说 ， 对 排序 方法 的 比较 包括 : 对 进行 的 比较 操作 和 交换 操作 数目 常 
数 因子 差异 的 比较 及 内 部 循环 长 度 常数 因子 差异 的 比较 。 对 于 特殊 的 输入 数据 ， 排 序 方 法 运 
行 时间 的 差异 可 能 会 超过 一 个 常数 因子 。 本 节 中 ， 我 们 重点 观察 各 项 分 析 结 果 。 

性 质 6.1 选择 排序 使 用 大 概 N2z/2 次 比较 操作 和 N 次 交换 操作 。 

通过 观察 图 6-2 中 执行 的 例子 可 以 很 容易 地 得 到 这 个 结论 。 该 例子 是 一 个 N-N 的 表格 ， 没 
有 打 阴 影 的 字母 对 应 比较 操作 。 表 格 中 大 概 有 一 半 的 字母 没有 打 阴 影 一 一 对 角 线 以 上 的 字母 。 
对 角 线 上 NN 一 1 个 字母 (不 包括 最 后 一 个 字母 ) 每 个 对 应 一 次 交换 操作 。 更 精确 地 ， 通 过 检查 
程序 代码 可 以 知道 ， 对 于 从 1 到 N 一 1 的 每 个 i:， 需 要 执行 一 次 交换 操作 和 N 一 i 次 比较 操作 ， 因 此 
一 共 执 行 N 一 1 次 交换 操作 和 (N 一 1) + (N 一 2) + … + 2 +1 = N(N 一 1)/2 比 较 操 作 。 这 些 结论 与 输入 
数据 无 关 ， 选择 排 序 中 惟一 与 输入 数据 有 关 的 是 更 新 min 的 次 数 。 在 最 坏 情 况 下 ， 该 数目 也 是 
输入 的 二 次 函数 。 但 在 平均 情况 下 ， 它 是 O(N log N) ( 见 第 三 部 分 参考 文献 )， 因 而 我 们 可 以 
期 望 选择 排序 的 执行 时 间 对 输入 数据 不 敏感 。 图 

性 质 6.2 ”在 平均 情况 下 ， 揪 入 排序 执行 大 约 N2/4 次 比较 操作 和 N2/4 次 交换 (移动 ) 操作 ， 
而 在 最 坏 情 况 下 需要 两 倍 的 数量 。 
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如 程序 6.3 执 行 过 程 ， 比 较 操作 的 数目 和 移动 操作 的 数目 是 一 样 的 。 和 性 质 6.1 一 样 ， 这 个 
结论 可 以 很 容易 地 通过 图 6-3 的 NN 表格 中 算法 的 执行 过 程 得 出 。 这 里 ， 最 坏 情 况 下 ， 对 角 线 
以 下 的 所 有 元 素 是 要 统计 在 内 的 。 对 于 随机 的 输入 ， 平 均 情况 下 ， 我 们 期 望 每 个 元 素 要 向 后 
移动 一 半路 程 ， 所 以 对 角 线 以 下 一 半 的 元 素 要 计算 在 内 。 | 

性 质 6.3 在 平均 情况 和 最 坏 情 况 下 ， 置 泡 排序 执行 大 约 Nz/2 次 比较 操作 和 N2z/2 次 交换 操作 。 

冒 泡 排 序 中 ， 第 ; 遍 需 要 执行 N 一 次 比较 -交换 操作 。 证 明 的 过 程 和 选择 排序 一 样 。 算 法 
修改 为 当 发 现 文件 已 排 好 序 时 终止 ， 运 行 的 时 间 由 输入 决定 。 如 果 文 件 是 已 经 排 好 序 的 ， 就 
只 需 这 一 步 ， 但 如 果 文 件 是 逆序 的 ， 第 i 遍 就 需要 执行 Ni 次 比较 和 交换 操作 。 最 坏 情况 下 
的 效率 和 平均 情况 下 的 效率 差别 不 大 ， 虽 然 要 证 实 这 个 结论 的 分 析 很 复杂 ( 见 第 三 部 分 参考 
文献 )。 国 

虽然 需要 在 对 已 基本 排 好 序 的 文件 进行 操作 时 才能 体现 插入 排序 和 冒 泡 排序 的 效率 ， 但 
这 两 种 排序 方式 对 于 实际 情况 下 经 常会 碰见 的 某 些 类 型 文件 是 很 高 效 的 。 而 一 般 的 排序 方式 
则 不 适用 于 这 些 文件 。 例 如 ， 使 用 插入 排序 对 一 个 已 排 好 序 的 文件 进行 操作 。 每 个 元 素 都 能 
直接 确定 在 文件 中 的 最 终 位 置 ， 整 个 执行 时 间 是 线性 的 。 这 一 结论 对 于 冒 泡 排 序 同样 成 立 ， 
但 选择 排序 的 运行 时 间 依 然 是 二 次 的 。 

定义 6.2 文件 中 一 对 顺序 不 对 的 元 素 称 为 一 个 逆序 。 

要 统计 文件 中 的 逆序 数 ， 我 们 可 以 对 每 个 元 素 左边 比 它 大 的 元 素 的 数目 进行 累加 (该 数 
目 表示 了 该 元 素 所 对 应 的 逆序 数 )。 而 在 插入 排序 中 ， 这 个 累加 数目 就 是 元 素 要 插入 文件 时 所 
要 向 前 移动 的 步 数 。 有 一 点 顺序 的 文件 的 逆序 数 要 比 完全 混乱 的 文件 的 少 。 

在 某 种 部 分 有 序 的 文件 中 ， 每 个 元 素 都 接近 于 它 排 序 后 的 最 终 位 置 。 例 如 ， 某 些 人 在 打 
牌 时 ， 先 按 花色 组 织 好 牌 ， 使 牌 接 近 于 最 终 的 位 置 ， 然 后 对 牌 一 张 张 地 进行 考虑 。 我 们 会 讨 
论 一 些 使 用 同样 方法 的 排序 算法 一 一 这 些 算法 在 最 先 的 步骤 中 产生 一 个 部 分 排 好 序 的 文件 ， 
使 各 个 元 素 都 接近 于 它 的 最 终 位 置 。 插 入 排序 和 冒 泡 排序 (不 包括 选择 排序 ) 是 对 该 类 型 文 
件 非 常 合适 的 方法 。 

性 质 6.4 ”对 于 逆序 数 是 常数 级 的 文件 ， 插 入 排序 和 置 泡 排序 所 要 进行 的 比较 和 交换 操作 
的 数目 是 输入 的 线性 函数 。 

如 刚才 所 讨论 的 ， 播 入 排序 的 运行 时 间 与 文件 中 的 逆序 数 直 接 相 关 。 对 于 冒 泡 排序 (这 里 ， 
我 们 指 的 是 程序 6.4， 进 行 了 一 点 修改 ， 当 文件 已 排 好 就 终止 操作 ) ， 证 明 的 方法 比较 复杂 
( 见 练习 6.29) 。 每 遍 冒 泡 排 序 中 ， 将 每 个 元 素 右 边 比 它 小 的 元 素 的 个 数 均 减 1 (除非 个 数 已 经 
为 0) ， 因 此 对 于 这 种 文件 ， 冒 泡 排 序 的 执行 遍 数 最 多 是 一 个 常数 级 的 ， 因 而 ， 所 执行 的 比较 
和 交换 操作 是 线性 的 。 图 

对 于 另外 一 种 部 分 有 序 的 文件 ， 可 能 是 对 已 排 好 序 的 数 添 加 一 些 元 素 或 者 对 已 排 好 序 的 
数列 的 一 些 元 素 进行 了 修改 。 该 类 文件 在 应 用 中 算是 很 常见 的 。 对 这 种 类 型 的 文件 ， 使 用 插 
和 人 排序 的 效率 比较 好 ， 而 选用 冒 泡 排序 和 选择 排序 的 效率 就 不 高 。 

性 质 6.5 ”如果 文件 中 有 固定 部 分 的 元 素 的 逆序 数 超 过 常数 级 ， 插 入 排序 所 执行 的 比较 和 
交换 操作 仍 是 线性 的 。 

插入 排序 的 运行 时 间 是 由 文件 的 总 逆序 数 决定 的 ， 而 与 逆序 数 的 分 布 情况 无 关 。 加 

要 根据 性 质 6.1~6.5 对 算法 的 运行 时 间 进 行 总 结 ， 我 们 需要 分 析 比 较 和 交换 操作 的 相对 开 
销 ， 该 特性 与 元 素 和 关键 字 的 大 小 有 关 ( 见 表 6-1)。 例 如 ， 如 果 元 素 是 单字 关键 字 ， 这 样 ， 
交换 操作 (访问 四 个 数组 ) 的 开销 是 比较 操作 的 两 倍 。 在 这 种 情况 下 ， 选 择 排序 和 播 入 排序 
的 运行 时 间 差 不 多 ， 而 冒 泡 排序 要 比较 慢 。 不 过 ， 在 相对 于 关键 字 来 说 元 素 比 较 大 的 情况 下 ， 
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选择 排序 是 效率 最 高 的 。 


表 6-1 基本 排序 算法 的 实验 性 研究 


对 于 小 型 文件 的 排序 ， 播 人 排序 和 选择 排序 的 效率 是 冒 泡 排序 的 两 倍 ， 但 运行 时 间 呈 平方 级 增长 〈 当 文件 大 小 
增长 2 倍 ， 运 行 时 间 则 以 4 倍增 长 ) 。 对 于 大 型 随机 有 序 的 文件 ， 这 些 方法 都 不 适用 。 例 如 ， 使 用 6.6 节 的 希 尔 排序 法 ， 
表 中 的 相应 数目 将 小 于 2。 当 比较 操作 的 开销 较 大 时 ， 比 较 的 关键 字 是 字符 串 类 型 一 一 这 时 ， 插 入 排序 比 其 他 两 种 方 
法 要 快 ， 因 为 它 使 用 的 比较 次 数 要 少 得 多 。 这 里 没有 包括 交换 操作 开销 较 大 的 情形 ， 在 这 种 情况 下 ， 选 择 排序 是 最 
好 的 算法 。 





32 位 整 型 关键 字 字符 串 类 型 关键 字 
N S I* I B B* S I B 
1000 5 7 4 11 8 13 8 19 
2000 21 29 15 45 34 56 31 78 
4000 85 119 62 182 138 228 126 321 


其 中 : 

S 选择 排序 (程序 6.2) 

I* 插入 排序 ， 基 于 交换 (程序 6.1) 
I 插入 排序 (程序 6.3) 

B 芒 泡 排序 (程序 6.4) 

B* 拌 动 排序 (练习 6.30) 


性 质 6.6 对 数据 项 较 大 、 关 键 字 较 小 的 文件 ， 选 择 排序 的 运行 时 间 是 线性 的 。 
设 M 表 示 数 据 项 大 小 相对 于 关键 字 大 小 的 比例 。 假 设 比较 操作 的 开销 为 1 个 单位 时 间 ， 交 
换 操作 为 M 单 位 的 了 时间。 选择 排序 在 比较 操作 上 所 占用 的 时 间 大 约 是 NY2， 而 在 交换 操作 上 所 
占用 的 时 间 大 约 是 NM。 如 果 M 比 N 的 常数 倍 要 大 ， 则 NM 这 一 项 控制 着 和 这 项 ， 因 而 ， 运 行 时 
间 与 NM 成 正比 ， 即 与 移动 所 有 元 素 所 需要 的 时 间 总 量 成 正比 。 | 
例如 ， 对 1000 个 包含 单字 关键 字 且 每 个 关键 字 由 1000 单 词组 成 的 数据 项 进行 排序 ， 而 且 
必须 对 数据 项 进行 重新 安排 ， 这 时 ， 选 择 排序 的 效率 最 高 ， 因 为 运行 时 间 由 移动 所 有 1 百 万 数 
据 所 需要 开销 决定 。 在 6.8 节 中 ， 我 们 会 讨论 重新 安排 数据 的 另 一 种 方法 。 
练习 
>6.26 ”对 所 有 关键 字 都 相同 的 文件 ， 哪 一 种 基本 的 排序 方法 (选择 排序 、 插 入 排序 或 者 冒 泡 
排序 ) 运行 得 最 快 ? 
6.27 ”对 于 逆序 文件 ， 哪 一 种 基本 排序 方法 运行 得 最 快 ? 
6.28 ”给 出 一 个 包含 10 个 元 素 的 文件 (关键 字 由 A 到 ])， 使 冒 泡 排 序 算法 所 使 用 的 比较 操作 要 
比 插入 排序 算法 所 使 用 的 少 ， 或 者 证 明 不 存在 这 样 的 文件 。 
“6.29 证 明 在 冒 泡 排序 的 每 一 遍 中 ， 都 使 每 个 元 素 左边 比 自己 大 的 元 素 个 数 减 1 (除了 个 数 已 
经 为 0) 。 
6.30 ”实现 冒 泡 排 序 的 一 种 版 本 : 执行 过 程 中 不 断 地 更 改 从 左 到 右 和 从 右 到 左 的 数据 扫描 顺 
序 。 这 个 算法 〈 更 快 但 更 复杂 ) 称 为 桂 动 排序 (shaker sort) ( 见 图 6-7)。 
。“6.31 证 明 性 质 6.5 对 抖动 排序 不 成 立 〈 见 练习 6.30) 。 
。%。6.32 在 PostScript ( 见 4.3 节 ) 中 实现 选择 排序 ， 利 用 你 的 实现 画 出 类 似 图 6-5 到 图 6-7 的 图 示 。 
你 可 以 使 用 递归 实现 ， 或 者 阅读 PostScript 的 手册 学 习 关于 循环 和 数组 的 相关 用 法 。 
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6.6 希 尔 排序 


插 人 排序 运行 效率 较 低 的 原因 是 它 所 执行 的 交换 操作 涉及 近邻 的 元 素 ， 使 得 元 素 每 次 只 
能 移动 一 位 。 例 如 ， 如 果 关 键 字 最 小 的 元 素 刚 好 在 数组 的 尾 端 ， 就 需要 N 步 将 该 元 素 放 到 数组 
最 前 端 。 硕 尔 排序 法 是 插入 排序 的 扩展 ， 它 通过 允许 非 相 邻 的 元 素 进行 交换 来 提高 执行 效率 。 

该 算法 的 思想 是 将 文件 重新 排列 ， 使 文件 具有 这 样 的 性 质 ， 每 第 h 个 元 素 (从 任何 地 方 开 
始 ) 产生 一 个 排 好 序 的 文件 。 这 样 的 文件 称 为 六 -排序 的 。 换 句 话 说 ， 广 排序 的 文件 是 z 个 独立 
的 已 排 好 序 的 文件 ， 相 互 交叉 在 一 起 。 对 h 值 较 大 的 -排序 文件 ， 可 以 通过 移动 相距 较 远 的 元 
素 ， 比 较 容 易 地 使 h 值 较 小 时 进行 h- 排 序 。 通 过 对 直到 1 的 h 值 的 序列 进行 操作 ， 就 会 产生 一 个 
排 好 序 的 文件 ， 这 就 是 希 尔 排序 的 本 质 。 

实现 希 尔 排序 的 一 种 方法 是 ， 对 每 个 4+， 对 每 个 h 子 文件 单独 使 用 插入 排序 。 虽 然 这 个 过 
程 看 起 来 较为 简洁 ， 但 因为 子 文件 的 独立 性 ， 我 们 可 以 使 用 一 个 更 简单 的 方法 。 在 使 文件 变 
成 h- 有 序 时 ， 通 过 将 较 大 的 元 素 右 移 ， 把 元 素 插 入 在 h- 子 文件 中 某 些 元 素 的 前 面 ( 见 图 6-8)。 
我 们 使 用 插入 排序 的 代码 来 做 这 项 工作 ， 但 在 扫描 文件 时 ， 把 移动 的 增 量 或 减 量 由 原来 的 1 变 
成 了 h。 这 一 观察 表明 希 尔 排 序 只 是 一 种 像 插 入 排序 那样 对 于 每 个 增 量 扫描 文件 的 过 程 ， 如 程 
序 6.5。 该 程序 的 执行 过 程 如 图 6-9 表 示 。 
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图 6-8 交叉 4- 排 序 图 6-9 和 希 尔 排 序 示 例 
注 : 该 图 的 上 部 分 表示 了 对 包含 15 个 元 素 的 文件 进行 4- ” 注 : 对 一 个 文件 依次 进行 13- 排 序 (上 图 )、4- 排 序 (中 
”排序 的 执行 过 程 。 首 先 对 0，4，8，12 位 置 的 子 文 图 ) 和 1- 排 序 (下 图 )。 执 行 中 所 进行 的 比较 操作 
件 进行 插入 排序 ， 接 着 对 1，5，9，13 位 置 的 子 文 不 多 (没有 打 阴 影 的 元 素 ) 。 最 后 一 遍 只 是 单纯 的 
件 进 行 插 入 排序 ， 接 着 对 2，6，10，14， 最 后 对 3， 插入 操作 ， 也 没有 元 素 需 要 移动 很 大 距离 、 因 为 通 
7，11 位 置 的 子 文件 进行 插入 排序 。 不 过 这 四 个 子 过 前 两 遍 文件 已 基本 有 序 。 


文件 是 独立 的 ， 所 以 我 们 可 以 通过 将 每 个 元 素 插 入 
到 它 所 在 的 子 文件 中 获得 相同 的 结果 ， 每 次 向 后 退 
4 步 (下 图 )。 将 上 图 中 每 块 的 第 一 行 取出 ， 接 着 取 
出 每 块 的 第 二 行 ， 以 此 类 推 ， 就 得 出 了 下 图 。 
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那么 如 何 决 定 所 选用 的 步 长 序列 呢 ? 一 般 很 难 回答 这 个 问题 。 步 长 序列 的 不 同 特征 在 文 
献 中 已 有 讨论 ， 有 一 些 在 实际 中 也 运用 得 很 好 ， 但 是 还 没 证 明 最 好 序列 已 经 找到 。 在 实际 中 ， 
我 们 通常 使 用 以 几何 级 别 减 少 的 序列 。 这 样 ， 不 同步 长 的 数目 是 文件 大 小 的 对 数 级 。 例 如 ， 
如 果 每 次 的 步 长 是 上 一 次 的 一 半 ， 那 么 对 一 个 包含 1 百 万 数据 的 文件 进行 排序 ， 大 概 只 需要 20 
种 步 长 ， 如 果 该 比例 是 1/4， 就 只 需 10 种 步 长 。 尽 量 使 用 较 少 数量 的 步 长 是 很 明显 的 一 一 我 们 
还 需要 考虑 步 长 间 的 数值 影响 ， 如 它们 的 公 因 子 大 小 和 其 他 一 些 性 质 。 

程序 6.5 希 尔 排序 

如 果 在 插入 排序 中 ， 我 们 不 使 用 观察 哨 ， 并 且 用 “h” 代 替 “1”， 结 果 就 得 到 疡 排序 的 文 
件 。 增 加 一 个 外 部 循环 来 改变 步 长 就 实现 了 希 尔 排序 方法 ， 这 里 使 用 的 步 长 序列 是 1 4 13 40 
121 364 1093 3280 9841… 


void shellsort(Item a[], int 1, int r) 
{ int i, j, h; 
for (h = 1; h <= (r-1)/9; h = 3*h+1) ; 
for(;h>0;h /= 3) 
for (i = lt+h; i <= r; i++) 
{ int j = i; Item v = a[i]; 
while (j >= 1+h && less(v, a{[j-h])) 
{ a[ljl] = a[j-h]; j -= h; } 
a[j] = v; 
} 





} 


得 到 一 个 好 的 步 长 序列 的 实际 效果 最 多 大 概 能 提高 25% 的 效率 。 不 过 该 问题 是 简单 问题 
存在 内 在 复杂 性 的 很 好 例子 ， 这 点 是 很 吸引 人 的 。 

程序 6.5 中 使 用 的 步 长 序列 1 4 13 40 121 364 1093 3280 9841…， 步 长 间 的 比例 大 概 是 1/3， 
是 由 Knuth 在 1969 年 提出 的 〈 见 第 三 部 分 参考 文献 ) 。 该 方法 很 容易 实现 〈 从 1 开始 ， 通 过 乘 3 
加 1 得 到 下 一 个 步 长 ) ， 而 且 效率 相对 还 可 以 ， 即 使 是 对 中 等 大 小 的 文件 也 是 如 此 ， 如 图 6-10 
所 示 。 
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“OR 
图 6-10 对 一 个 随机 序列 进行 希 尔 排 序 
注 : 希 尔 排序 中 每 步 都 使 整个 文件 更 接近 于 排 好 序 。 该 文件 中 首先 进行 40- 排 序 ， 然 后 进行 13- 排 序 、4- 排 序 ， 
最 后 进行 1- 排 序 。 每 步 部 使 文件 更 接近 于 排 好 序 。 

其 他 的 步 长 序列 可 以 得 到 效率 更 高 的 排序 ， 不 过 相对 程序 6.5 中 的 序列 很 难 将 效率 提高 
20%， 即 使 是 对 相对 较 大 的 VY。 共 中 一 种 可 以 提高 效率 的 步 长 序列 是 1 8 23 77 281 1073 4193 
16577…， 序 列 4*! + 3 .2+ 1，i> 0， 可 以 证 明 在 最 快 情况 下 使 用 该 序列 运行 得 更 快 〈 见 性 质 
6.10) 。 图 6-12 显 示 该 序列 及 Knuth 的 序列 以 及 其 他 一 些 序列 对 大 文件 有 类 似 的 动态 性 质 。 事 
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实 上 的 确 可 能 存在 更 好 的 步 长 序列 。 练 习 中 将 会 提出 几 种 对 步 长 序列 进行 改进 的 思想 。 

另 一 方面 ， 有 一 些 不 好 的 步 长 序列 ， 如 1 2 4 8 16 32 64 128 256 512 1024 2048... (1959 年 
当 Shell 提 出 算法 时 给 出 的 序列 ， 见 第 三 部 分 参考 文献 ) ， 因 为 直到 最 后 一 遍 在 奇数 位 置 的 元 素 
才 会 与 偶数 位 置 的 元 素 进 行 比较 ， 这 样 使 这 个 序列 的 效率 变 得 很 低 。 对 于 随机 文件 ， 该 特性 
是 显著 的 ， 而 对 于 最 坏 的 情况 ， 简 直 是 灾难 : 该 方法 将 退化 到 需要 二 次 的 运行 时 间 ， 如 偶数 
位 置 中 保存 的 是 较 小 的 一 半 元 素 ， 而 奇数 位 置 上 保存 的 是 较 大 的 一 半 元 素 ( 见 练 习 6.36)。 

在 初始 化 确保 总 是 使 用 同一 序列 后 ， 程 序 6.5 通 过 对 步 长 除 以 3 得 到 下 一 个 步 长 。 另 一 种 方 
法 是 从 h = NM3 或 者 其 他 N 的 函数 开始 。 最 好 避免 这 种 做 法 ， 因 为 在 上 段 所 举 的 不 好 的 序列 就 
是 从 N 的 某 种 函数 中 得 到 。 

我 们 对 希 尔 排 序 法 的 效率 的 描述 是 不 精确 的 ， 因 为 还 没有 人 能 对 该 算法 进行 精确 的 分 析 。 
由 于 这 点 ， 我 们 不 仅 很 难 对 不 同 的 步 长 序列 进行 比较 ， 也 不 能 将 希 尔 排序 法 和 其 他 排序 法 进 
行 分 析 性 比较 。 希 尔 排 序 半 的 运行 时 间 公 式 也 还 未 得 出 (该 公式 与 步 长 序列 有 关 )。Knuth 发 
现 公式 N(log NM 和 公式 NM 都 较 合适 ， 而 晚 些 的 研究 又 发 现 ， 对 某 些 序列 ， 一 个 更 复杂 的 公式 
同样 适用 : No vs 。 

我 们 通过 对 一 些 希 尔 排 序 已 知 的 特性 进行 讨论 来 对 本 节 进 行 总 结 。 这 样 做 的 基本 目的 是 
要 表明 表面 简单 的 算法 也 会 有 复杂 的 特性 ， 并 且 对 算法 进行 分 析 不 仅 是 实际 运用 中 的 重要 工 
作 ， 还 是 一 种 智力 上 的 挑战 。 有 兴趣 寻找 一 个 新 的 效率 更 好 的 希 尔 排序 法 步 长 序列 的 读者 会 
觉得 以 下 信息 很 有 用 ， 而 另外 一 些 读者 可 能 会 希望 直接 跳 到 6.7 节 。 

性 质 6.7 对 已 EL 有 序 的 文件 进行 h- 排 序 所 得 结果 是 一 个 既 h- 有 了 序 又 k- 有 序 的 文件 。 

该 特性 似乎 显而易见 ， 但 证 明 起 来 很 复杂 ( 见 练习 6.47)。 团 

性 质 6.8 ”对 了 既 h- 有 序 又 k- 有 序 的 文件 进行 8- 排 序 时 所 需 比 较 操 作 数 小 于 N(h 一 1)(k 一 1)/g， 
假设 h 和 kK 是 互 素 的 。 

图 6-11 中 图 示 这 一 事实 的 基本 特性 。 对 任意 的 元 素 x， 在 它 左边 超过 (h 一 1)(k 一 1) 位 置 的 数 
没有 一 个 比 x 大 ， 如 果 h 拓 Ik 是 互 素 的 ( 见 练习 6.43)。 当 进行 8- 排 序 时 ， 对 于 这 些 元 素 我 们 最 多 
da 图 



















图 6-11 已 4- 和 13- 有 序 的 文件 


注 ， 最 后 一 行 表 示 一 个 数组 ， 如 果 已 4- 排 序 和 13- 排 序 ， 则 阴影 格 中 描述 的 数据 项 必定 小 于 或 等 于 远 右 边 的 某 个 
数据 项 。 上 面 4 行 表示 了 该 数列 的 原始 状态 。 假 设 右 边 元 素 所 在 位 置 为 i， 那么 数组 4- 有 序 就 意味 着 在 i 一 4 
i 一 8，i 一 12… 位 置 上 的 元 素 比 它 要 小 或 相等 (最 上 面 一 行 ) ; 13- 有 了 序 ， 再 加 上 原来 进行 的 4- 排 序 ， 在 i 一 13 
i 一 17,i~-21， i 一 25，… 位 置 的 元 素 比 它 小 或 相当 《第 二 行 ) ; 同样 ， 在 i26，i 一 30，i 一 34， i 一 38，… 位 置 
的 元 素 也 较 小 或 相等 (第 三 行 ) ; 以 此 类 推 。 而 没有 打 阴 影 的 元 素 表 示 可 能 比 在 它 左边 的 数 要 大 。 最 多 有 
18 个 这 样 的 元 素 (其 中 最 远 的 是 在 i-36 位 置 的 元 素 )。 因 此 ， 对 于 大 小 为 N， 已 进行 了 13- 排 序 和 4- 排 序 的 文 
件 进行 插入 排序 时 最 多 需要 执行 18N 次 比较 操作 。 


性 质 6.9 对 步 长 序列 为 14 13 40 121 364 1093 3280 9841… 和 希 尔 排序 使 用 少 于 O(N3?) 次 的 
比较 操作 。. 

对 于 较 大 的 步 长 ， 有 h 个 大 小 约 为 Nh 的 子 文件 ， 最 坏 情 况 下 需要 的 开销 约 为 N/h。 对 于 较 
小 的 步 长 ， 性 质 6.8 表 明了 该 开销 约 为 Nh。 如 果 我 们 对 每 个 步 长 更 好 地 利用 这 些 上 限 ， 结 果 仍 
然 成 立 。 它 对 任意 以 指数 倍数 增长 的 互 素 序列 都 成 立 。 图 
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性 质 6.10 ”对 步 长 序列 为 1 8 23 77 281 1073 4193 16577… 希 尔 排 序 使 用 少 于 O(N43) 的 比 
较 操 作 。 

要 证 明 这 个 性 质 可 沿用 证 明 性 质 6.9 的 思路 。 和 性 质 6.8 类 似 , 该 性 质 表明 了 对 较 小 的 步 长 ， 
开销 大 约 为 Na”。 要 精确 地 证 明 这 点 ， 需 要 一 系列 的 数学 理论 ， 这 些 已 经 超出 了 本 书 的 范围 
( 见 第 三 部 分 参考 文献 ) 。 于 

我 们 刚才 所 讨论 的 步 长 数列 中 各 步 是 互 素 的 。 另 外 一 些 高 效 的 步 长 数列 的 步 长 不 一 定 是 
互 素 的 。 

特别 是 ， 性 质 6.8 表 明 ， 如 果 一 个 文件 已 经 进行 了 2- 排 序 和 3- 排 序 ， 则 在 最 后 的 插入 排序 
中 ， 每 个 元 素 至 多 移动 一 位 。 也 就 是 说 ， 这 样 的 文件 可 通过 一 遍 的 冒 泡 排序 即 可 使 序列 有 序 。 
如 果 一 个 文件 是 4- 有 序 和 6- 有 序 的 ， 那 么 如 果 我 们 对 它 进行 2- 排 序 ， 则 在 最 后 的 揪 入 排序 中 ， 
文件 中 每 个 元 素 也 最 多 只 需 移动 一 位 (因为 每 个 子 串 都 是 已 2- 排 序 和 3- 排 序 的 ) 。 同 样 ， 如 果 
一 个 文件 已 6- 排 序 和 9- 排 序 ， 对 它 进 行 3- 排 序 后 ， 则 在 最 后 的 播 和 排序 中 ， 文 件 中 每 个 元 素 也 
最 多 只 需 移 动 一 位 。 按 照 这 一 思路 可 得 以 下 结论 ， 它 是 由 Pratt 在 1971 年 提出 的 〈 见 第 三 部 分 
参考 文献 ) 。 

性 质 6.11 对 步 长 序列 为 1 2 3 46981218271624365481…， 希 尔 排序 使 用 少 于 OCN 
(log N) 的 比较 操作 。 

考虑 使 用 以 下 三 角形 数列 作为 步 长 序列 ， 其 中 三 角形 中 每 个 数据 是 右上 方 数字 的 两 倍 ， 
同时 也 是 左上 方 数字 的 三 倍 。 


8 12 18 27 
16 24 36 54 81 
32 48 72 108 162 243 
64 96 144 216 324 486 729 


如 果 我 们 按照 从 下 到 上 、 从 右 到 左 的 顺序 读 取 这 些 数字 作为 一 个 希 尔 排序 的 步 长 序列 ， 
那么 进行 步 长 为 x 排 序 前 已 进行 了 2x 和 3x 排 序 ， 因 此 ， 每 个 子 文件 都 是 已 2- 排 序 和 3- 排 序 的 ， 
即 整个 排序 中 没有 一 个 元 素 移动 超过 一 个 位 置 ! 三 角形 中 的 小 于 六 的 步 长 数目 必定 少 于 
(log N)’, 国 

由 于 数量 太 多 ， 实 际 运 用 中 Pratt 的 步 长 序列 的 效率 比 不 上 其 他 序列 。 我 们 可 以 使 用 同样 
原理 ,根据 两 个 互 素 的 数 h 和 k 来 构造 一 个 步 长 序列 ， 在 实际 运用 中 ， 这 样 的 数列 的 效果 较 好 ， 
因为 在 最 坏 情 况 下 的 开销 相当 于 根据 性 质 6.11 对 随机 文件 开销 的 过 高 估计 。 

为 希 尔 排 序 靶 设计 一 个 好 的 步 长 序列 这 个 问题 ， 是 简单 算法 也 会 有 复杂 特性 的 一 个 很 好 
的 例子 。 我 们 当然 不 能 对 所 遇 到 的 问题 都 进行 这 种 程度 的 详细 讨论 (我 们 不 仅 是 没有 这 样 的 
环境 ， 而 且 ， 如 我 们 在 对 希 尔 排 序 法 进行 讨论 时 那样 ， 我 们 会 遇见 一 些 超出 本 书 范围 的 数学 
分 析 或 研究 问题 ) 。 然 而 ， 本 书 的 许多 算法 是 过 去 几 十 年 里 由 许多 研究 人 员 进 行 了 广泛 的 分 析 
和 实验 后 得 到 的 成 果 ， 我 们 可 以 从 中 获 益 。 这 点 表明 了 改进 算法 的 研究 是 一 项 智力 挑战 又 是 
可 以 得 到 实际 运用 成 果 回 报 的 工作 ， 即 使 只 是 对 很 简单 的 算法 进行 研究 。 表 6-2 的 研究 结果 表 
明 ， 对 步 长 序列 进行 设计 的 一 系列 方法 在 实际 运用 中 是 高 效 的 ， 其 中 ， 序 列 1 8 23 77 281 
1073 4193 16577… 是 希 尔 排序 法 使 用 的 最 简单 步 长 之 一 。 
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表 6-2 ”对 希 尔 排序 的 步 长 序列 的 实验 性 研究 


即使 只 是 使 用 2 的 需 作 为 步 长 序列 ， 希 尔 排序 也 比 其 他 基本 排序 方式 要 快 很 多 ， 但 某 些 步 长 序列 可 使 排序 效率 提 
高 5 倍 以 上 。 本 表 中 列 出 的 三 个 最 好 的 序列 在 设计 中 是 完全 不 同 的 。 即 使 对 于 大 型 文件 ， 希 尔 排序 文件 也 是 很 实用 的 
方法 ， 特 别 是 和 选择 排序 、 插 入 排序 和 冒 泡 排序 相 比 时 〈 见 表格 6.1) 。 








N O K G S P I 
12 500 16 6 6 5 6 6 
25 000 37 13 11 12 15 10 
50 000 102 31 30 27 38 26 

100 000 303 77 Ss 60 63 81 58 
200 000 817 178 137 139 180 126 





其 中 : 

O 1248163264128256 512 1024 2048…. 

K 1413 40 121 364 1093 3280 9841… (性 质 6.9) 

G 124102351113 249 548 1207 2655 5843… (练习 6.40) 
S 182377281 1073 4193 16577… (性 质 6.10) 

P 1784956643433924485122401 2744.… (练习 6.44) 
I 15 19 41 109 209 505 929 2161 3905… (练习 6.45) 






































图 6-12 希 尔 排序 的 动态 特性 (两 种 不 同 的 步 长 序列 ) 


注 : 在 本 例 中 ， 硕 尔 排序 就 好 像 将 一 个 固定 在 四 角 的 橡皮 带 ， 拉 向 对 角 线 方向 。 所 使 用 的 两 个 步 长 序列 分 别 为 : 
121 40 13 4 1 ( 左 图 ) 和 209 109 41 19 5 1 ( 右 图 ) 。 第 二 种 方法 执行 的 步骤 比 第 一 种 方法 多 一 遍 ， 但 它 更 
快 ， 因 为 每 遍 的 执行 效率 更 高 。 
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图 6-13 表 示 了 和 希 尔 排序 法 对 不 同类 型 的 文件 进行 操作 时 效率 较 好 ， 而 不 只 适用 于 随机 文 
件 。 事 实 上 ， 如 何 构造 一 个 文件 ， 使 希 尔 排序 算法 对 于 给 定 的 增长 序列 其 执行 效率 慢 是 一 项 
有 挑战 性 的 练习 〈 见 练习 6.42) 。 正 如 我 们 已 经 提 到 的 那样 ， 存 在 一 些 坏 的 增长 序列 ， 使 希 尔 
排序 最 坏 情 况 下 需要 二 次 函数 的 比较 次 数 〈 见 练习 6.36) ， 但 对 于 大 量 各 种 不 同 的 序列 ， 和 希 尔 
排序 算法 也 显示 了 更 低 的 下 界 。 
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图 6-13 希 尔 排序 对 各 种 不 同文 件 的 动态 特性 
注 : 这 些 图 显示 了 项 尔 排序 增 量 为 209 109 41 19 5 1 时 作用 在 随机 文件 、 高 斯 分 布 的 文件 、 几 乎 有 序 的 文件 、 
几乎 这 序 的 文件 以 及 10 个 不 同 关键 字 值 的 随机 有 序 文件 (上 图 从 左 到 右 ) 的 情况 。 每 遍 的 运行 时 间 取决 于 
在 开始 时 ， 文 件 有 序 的 程度 。 在 运行 几 遍 之 后 、 这 些 文件 都 似乎 有 序 了 。 因 此 ， 运 行 时 间 对 于 输入 并 不 很 
艇 感 。 

由 于 即使 对 于 大 文件 ， 希 尔 排序 法 都 具有 较 高 的 运行 效率 以 及 代码 简单 容易 执行 ， 很 多 
排序 应 用 程序 都 选择 了 希 尔 排序 法 。 在 以 下 几 章 中 ， 我 们 会 讨论 一 些 更 高 效 的 算法 ， 但 除非 N 
很 大 ， 它 们 也 最 多 只 是 提供 两 倍 的 效率 ， 而 且 要 复杂 得 多 。 简 而 言 之 ， 如 果 你 需要 快速 解决 
一 个 排序 问题 ， 而 且 不 会 涉及 系统 排序 ， 你 可 以 使 用 希 尔 排序 法 ， 然 后 稍 候 再 考虑 是 否 需 要 
用 一 个 更 完备 的 算法 代替 它 。 
练习 

>6.33 ”和希 尔 排序 是 否 稳定 ? 
6.34 ”显示 使 用 步 长 序列 1 8 23 77 281 1073 4193 16577... 如 何 实现 希 尔 排序 ， 参 照 Knuth 序 列 
的 代码 ， 使 用 直接 的 计算 公式 得 出 连续 的 步 长 序列 。 

>6.35 对 于 关键 字 EASYQUESTION， 给 出 对 应 图 6-8 和 图 6-9 的 图 表 。 
6.36 ”计算 对 奇数 位 置 数据 为 1，2，…，N， 偶 数位 置 数据 为 Nt1，N+2，…，2N 的 文件 使 用 
序列 1 2 4 8 16 32 64 128 256 512 1024 2048… 进 行 希 尔 排序 时 所 需 的 运行 时 间 。 
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6.37 ”编写 一 个 驱动 程序 来 比较 希 尔 排序 的 步 长 序列 。 从 标准 输入 中 读 入 序列 ， 每 行 一 个 序 
列 ， 然 后 用 它们 来 对 10 个 大 小 为 N 的 随机 文件 进行 排序 ，N = 100，1000 和 10000。 统 计 比 较 操 
作 的 数目 和 测量 实际 的 运行 时 间 。 

。6.38 ”进行 实验 证 明 对 N = 10000 的 随机 文件 ， 是 否 可 以 通过 增加 一 个 步 长 或 减少 一 个 步 长 来 
提高 步 长 序列 18 23 77 281 1073 4193 16577… 的 运行 效率 。 

。6.39 进行 实验 证 明 对 wN = 10 000 的 随机 文件 ， 在 步 长 序列 1 4 13 40 121 364 1093 3280 9841… 
中 如 果 用 zx 代替 13， 那 么 z 为 多 少时 排序 时 间 最 短 ? 

6.40 ”进行 实验 证 明 对 N = 10 000 的 随机 文件 ， 使 用 步 长 序列 1，lcj，|c |], |® |, le] ，… 
进行 排序 时 ，o 为 多 少时 运行 时 间 最 短 ? 

.6.41 对 包含 1000 个 元 素 的 随机 文件 ， 寻 找 一 个 包含 3- 步 长 的 序列 ， 使 需要 进行 的 比较 操作 
次 数 最 少 。 

.6.42 ”构造 一 个 包含 100 个 元 素 的 文件 ， 使 得 使 用 步 长 序列 1 8 23 77 进 行 希 尔 排序 时 ， 所 要 执 
行 的 比较 操作 次 数 最 多 。 

。6.43 ”证 明 如 果 h 和 k 互 素 ， 那 么 比 (h 一 1)(k 一 1) 大 或 相等 的 任意 数 可 以 表示 为 1 和 k 的 线性 组 合 
(系数 非 负 )。 提 示 : 如 果 k 的 前 4 一 1 个 倍数 中 有 任意 两 个 数 除 以 h 的 余数 相等 ， 那 么 hk 必然 有 
公 因子 。 

6.44 ”进行 实验 确定 , 用 基于 h 和 k 的 类 Pratt 序 列 对 包含 10000 个 元 素 的 随机 文件 进行 希 尔 排序 ， 
hk 为 何 值 时 ， 运 行 时 间 最 短 。 

6.45 步 长 序列 1 5 19 41 109 209 505 929 2161 3905… :是 基于 将 序 说 列 9*4: (9*2: + 1 和 序列 4: 一 
3*2! + 1，i > 0， 归 并 得 到 的 。 对 包含 10000 个 元 素 的 随机 文件 进行 排序 ， 比 较 单独 使 用 这 些 
序列 和 使 用 归并 序列 的 结果 。 

6.46 序列 1372148 112 336 861 1968 4592 13776… 起 源 于 一 个 互 素 基本 序列 ， 如 13716 
41 101， 接 着 像 Pratt 序 列 中 那样 构造 一 个 三 角形 ， 通 过 将 第 二 1 行 的 第 一 个 元 素 与 基本 序列 中 
的 第 i 个 元 素 相 乘 ， 即 将 第 i-1 行 中 所 有 元 素 分 别 与 基本 序列 中 的 第 计 1 个 元 素 相 乘 ， 得 出 三 角 
形 中 第 府 数 据 。 做 实验 求 出 一 个 基本 序列 ， 使 对 10000 个 数据 进行 排序 时 效率 有 所 提高 。 

。6.47 ”完成 对 性 质 6.7 和 6.8 的 证 明 。 

.6.48 ”实现 一 个 基于 练习 6.30 中 的 抖动 方法 的 希 尔 排序 ， 并 与 标准 算法 进行 比较 。 注 意 ， 所 
使 用 的 步 长 要 和 标准 算法 中 所 使 用 的 不 同 。 


6.7 对 其 他 类 型 的 数据 进行 排序 


尽管 在 学 习 大 多 数 的 排序 算法 时 ， 只 是 简单 认为 将 数值 按 大 小 排列 或 将 字符 按 字母 顺序 
排列 是 合理 的 ， 但 认识 到 排序 算法 其 实 与 数据 类 型 没有 太 大 关系 也 是 很 重要 的 ， 而且 做 出 更 
一 般 的 设置 并 不 困难 。 我 们 已 经 详细 地 讨论 过 如 何 将 程序 分 成 独立 的 部 分 来 实现 数据 类 型 和 
抽象 数据 类 型 ( 见 第 3 章 和 第 4 章 ) ， 在 本 节 中 ， 我 们 将 考虑 如 何 利用 已 有 的 结论 ， 使 排序 实现 
适用 于 各 种 类 型 的 数据 。 

特别 地 ， 我 们 考虑 以 下 问题 的 实现 、 接口 和 客户 端 程序 

。 元 素 ， 或 者 要 排序 的 一 般 对 象 。 

。 数 据 项 的 数组 。 

Item 数 据 类 型 为 我 们 提供 一 种 把 排序 代码 用 于 定义 了 基本 操作 的 任何 数据 类 型 的 方式 。 
该 过 程 对 简单 的 数据 类 型 和 抽象 的 数据 类 型 同样 适用 ， 而 我 们 需要 考虑 众多 的 实现 。 数 组 接 
口 没 那么 重要 。 我 们 调用 它 的 目的 是 给 出 一 个 使 用 多 样 数据 类 型 的 多 模块 程序 的 例子 。 我 们 
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只 考虑 数组 接口 的 一 种 (直接 ) 实现 方式 。 

程序 6.6 是 一 个 客户 端 程序 ， 它 和 程序 6.1 的 main 程 序 的 功能 大 致 相同 ， 但 加 入 了 把 操纵 数 
组 和 数据 项 的 操作 封装 到 独立 模块 的 代码 。 特 别 地 ， 通 过 替换 不 同 的 模块 ， 不 必修 改 客户 端 
程序 ， 就 能 够 支持 对 各 种 不 同类 型 数据 的 测试 。 为 了 完成 实现 ， 我 们 需要 精确 地 定义 array 和 
1ten 数 据 类 型 接口， 然后 提供 它们 的 实现 。 


程序 6.6 数 给 的 排序 驱动 程序 
这 个 对 基本 数组 排序 亭 的 驱动 程序 使 用 了 两 个 显 式 接口 : 第 一 个 是 用 于 初始 化 和 输出 ( 且 
排序 ) 数组 的 函数 ， 第 二 个 是 封装 了 对 数据 项 所 进行 操作 的 数据 类 型 。 第 一 个 允许 对 用 于 数 
组 的 函数 分 开 编 译 ， 第 二 个 允许 对 具有 同一 排序 代码 的 其 他 数据 类 型 进行 排序 。 
#include <stdlib.h> 
#include "Item.h" 
#include "Array.h" 
main(int argc, char *argv[]) 
{ int i, N= atoi(argv[1]), sw = atoi(argv[2] ) ; 
Item *a = malloc(N*sizeof (Item)); 
if (sw) randinit(a, N); else scaninit (a, &N); 
sort(a, 0, N-1); 
show(a, 0, N-1): 
} 


程序 6.7 中 的 接口 定义 了 一 系列 会 对 数组 进行 的 高 级 操作 的 例子 。 我 们 希望 能 够 用 关键 字 
值 对 数组 进行 初始 化 ， 或 者 是 通过 随机 或 者 是 从 标准 输入 来 初始 化 。 我 们 希望 能 对 数据 进行 
排序 〈 这 是 当然 的 ! ) ， 而 且 能 输出 结果 。 这 只 是 其 中 一 些 例子 。 在 特定 的 应 用 中 ， 我 们 可 能 
希望 定义 其 他 一 些 操 作 。 使 用 这 种 接口 ， 我 们 可 以 替换 各 种 操作 的 不 同 实现 ， 而 不 需要 修改 
使 用 这 个 接口 的 客户 端 程序 ， 在 这 里 ， 是 指 程序 6.6 中 的 main 程 序 。 我 们 正在 研究 的 各 种 排序 
方法 都 可 以 当 作 sort 函 数 的 实现 。 程 序 6.8 有 一 些 用 于 其 他 功能 的 简单 实现 。 我 们 还 希望 替换 
其 他 的 实现 ， 这 与 应 用 有 关 。 例 如 ， 我 们 可 能 在 用 大 型 数组 测试 排序 时 ， 使 用 show 的 实现 ， 
只 输出 数组 的 一部分。 


程序 6.7 数组 数据 类 型 接 上 
该 Array , h 接 口 为 包含 抽象 元 素 的 数组 定义 了 高 层次 的 函数 ， 初始 化 随机 值 ， 通过 读 取 标 
准 输入 进行 初始 化 ， 输 出 数据 ， 及 对 数据 进行 排序 。 元 素 类 型 由 独立 接口 定义 〈 见 程序 6.9) 。 
void randinit(Item [], int); 
void scaninit(Item [], int *); 
void show(Item [], int, int); 
void sort(Item [], int, int); 


| 程序 6.8 数组 数据 类 型 实现 
本 代码 是 对 程序 6.7 中 所 定义 的 函数 的 实现 过 程 ， 使 用 item 类 型 和 在 独立 的 接口 中 定义 的 
基本 功能 ( 见 程 序 6.9)。 
#include <stdio.h> 
#inciude “stdlib .h> 


#include "Item.h' 
#include "Array.h" 
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void randinit(Item a[] ，int N) 


{ int i; 
for (i = 0; i < Ni i++) a[i] = ITEMrand() ， 
} 
void scaninit(Item a[], int *N) 
{t int i = 0; 


for (i=0; i< #N; i++) 
if (ITEMscan(&a{[il) == EOF) break; 

*N = i; 

1 

void show(itemType a[], int 1, int r) 

{ int i; 
for (i = 1; i <= Ti i++) ITEMshow(a[il]); 
printf("\n"); 

了 


使 用 类 似 的 方法 ， 要 使 用 某 些 特殊 类 型 的 数据 项 或 关键 字 ， 我 们 就 定义 它们 的 类 型 ， 并 
以 显 式 接 口 声明 其 上 的 所 有 相关 操作 ， 然 后 提供 了 在 数据 项 接口 中 定义 的 操作 的 实现 。 程 序 
6.9 是 该 接口 用 于 浮 点 类 型 关键 字 的 一 个 例子 。 这 个 代码 中 定义 了 我 们 一 直 使 用 的 关键 字 的 比 
较 操 作 和 数据 项 的 交换 操作 ， 以 及 产生 随机 关键 字 的 函数 ， 从 标准 输入 读 取 关 键 字 和 输出 关 
键 字 值 。 程 序 6.10 给 出 了 基于 这 个 简单 例子 的 这 些 函 数 的 实现 。 其 中 一 些 操作 在 接口 中 定义 
为 宏 ， 这 是 一 种 更 高 效 的 方法 ， 其 他 操作 使 用 C 代 码 实现 ， 这 是 一 种 更 灵活 的 方法 。 


iD ; “| 程序 6.9“ 元 素数 据 类 型 接口 示例 ， 1 
程序 6.6 和 程序 68 中 包含 的 文件 Item_h 定 义 了 所 要 进行 排序 的 数据 项 的 数据 表示 和 相关 操 
作 。 本 例 中 ， 元 素 是 浮 点 型 的 关键 字 。 在 排序 程序 中 我 们 使 用 宏 来 表示 key、1ess、exch 和 
compexch 数 据 类 型 操作 ， 我 们 还 把 它们 分 别 定义 为 实现 的 函数 ， 像 ITEMrand (返回 一 个 随机 关 
键 字 ) ，ITEMscan (从 标准 输入 读 取 关键 字 ) 和 ITEMshow (打印 关键 字 值 ) 这 三 个 函数 一 样 。 


typedef double Iten; 
#define key(A) (A) 
#define less(A, B) (key(A) < Key(B)) 
#define exch(A, B) { Item t = A; A=B;B=t;}) 
#define compexch(A, B) if (lesa(B, A)) exch(A, B) 
Item ITEMrand(void) ; 
int ITEMscan(Item *); 
void ITEMshow(Item); 








本 代码 实现 了 程序 6.9 中 声明 的 三 个 函数 ITEMrand， TITEMscan 和 ITEMshow。 在 本 代码 中 ， 
我 们 直接 引用 doub1e 数 据 类 型 ， 在 scanf 和 printf 的 选项 中 使 用 显 式 的 浮 点 类 型 ， 以 此 类 推 。 
我 们 包含 接口 文件 Item.h， 从 而 可 以 在 编译 时 发 现 接口 和 实现 之 间 的 任何 差异 。 

#include <stdio.h> 

#incilude <stdlib.h> 

#include "Item.h" 

double ITEMrand(void) 

{1 return i.0*rand()/RAND_MAX; } 
int ITEMscan(double *x) 
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{ return scanf ("%f", x); } 
void ITEMshow(double x) 
{ printf("%7.5f ", x); } 


程序 6.6 至 程序 6.10 再 加 上 6.2 节 到 6.6 节 介绍 的 排序 算法 ,提供 了 对 浮 点 数 排序 的 一 种 测试 。 
通过 为 其 他 类 型 的 数据 提供 类 似 的 接口 和 执行 程序 ， 我 们 可 以 实现 对 不 同类 型 的 数据 进行 排 
序 ， 如 长 整数 ( 见 练习 6.49)、 复 数 ( 见 练习 6.50) 或 者 矢量 ( 见 练习 6.55)， 而 不 需要 对 排序 
代码 进行 任何 修改 。 对 于 类 型 更 复杂 的 数据 项 ， 接 口 和 实现 会 更 复杂 ， 但 是 这 个 实现 工作 和 
我 们 一 直 讨 论 的 算法 设计 问题 是 完全 分 离 的 。 我 们 可 以 用 同样 的 机 制 使 用 本 章 中 所 讨论 的 大 
部 分 排序 算法 ， 以 及 我 们 将 在 第 7 章 至 第 9 章 学 习 的 那些 排序 算法 。 在 6.10 节 ， 我 们 会 详细 讨 
论 一 个 重要 的 例外 ， 它 引出 一 类 重要 的 必需 单独 讨论 的 算法 体系 ， 这 也 是 第 10 章 的 主题 。 

本 节 中 所 讨论 的 方法 ， 是 程序 6.1 和 包括 错误 检查 、 内 存 管理 和 其 他 更 普遍 能 力 的 工业 化 
实现 的 完整 集合 的 一 个 过 渡 。 这 种 类 型 的 封装 在 一 些 现代 编程 和 应 用 环境 中 越 来 越 重要 。 对 
某 些 问 题 ， 我 们 不 去 解答 ， 我 们 的 主要 目的 是 要 表明 ， 只 需 一 些 相对 简单 的 机 制 ， 就 能 使 得 
排序 算法 的 实现 应 用 广泛 。 
练习 
6.49 编写 通用 数据 项 的 数据 类 型 的 接口 和 实现 (类似 程序 6.9 和 程序 6.10)， 使 排序 方法 支持 
对 长 整 型 数据 的 排序 。 

6.50 ”编写 通用 数据 项 的 数据 类 型 的 接口 和 实现 〈 类 似 程 序 6.9 和 程序 6.10) ， 使 排序 方法 支持 
对 复数 x + 蕊 的 排序 ， 并 使 用 复数 大 小 Vxz + 六 作为 关键 字 。 注 : 忽略 平方 根 可 能 会 提高 效率 。 
06.51 编写 一 个 接口 程序 ， 定 义 通用 元 素 的 一 级 抽象 数据 类 型 ( 见 4.8 节 ) ， 并 给 出 其 中 数据 
项 为 浮 点 数 的 一 个 实现 。 使 用 程序 6.3 和 程序 6.6 测 试 你 的 程序 。 

>6.52 ”向 程序 6.8 和 程序 6.7 中 的 数组 数据 类 型 添加 一 个 函数 check， 用 于 测试 数组 是 否 有 序 。 
“6.53 ”向 程序 6.8 和 程序 6.7 中 的 数组 数据 类 型 添加 一 个 函数 testinit， 它 可 根据 类 似 图 6-13 中 的 
说 明 的 分 布 产生 测试 数据 。 为 客户 端 提 供 整 型 参数 来 确定 这 个 分 布 。 

“6.54 ”修改 程序 6.7 和 程序 6.8， 实 现 一 个 拍 象 数据 类 型 。( 你 的 实现 应 该 负责 分 配 数组 和 管理 
数组 ， 就 像 第 3 章 中 栈 和 队列 的 实现 那样 )。 

6.55 ”编写 通用 元 素数 据 类 型 的 一 个 接口 和 实现 , 使 排序 方法 能 够 对 d 维 整数 的 多 维 向 量 排序 
首先 对 第 一 维 排序 ， 如 果 第 一 维 相等 ， 则 根据 第 二 维 排序 ， 如 果 第 一 维和 第 二 维 都 相等 ， 则 
根据 第 三 维 排序 ， 依 次 类 推 。 


6.8 索引 和 指针 排序 


对 与 程序 6.9 和 程序 6.10 类 似 的 字符 串 类 型 数据 的 实现 研究 是 很 重要 的 ， 因 为 字符 串 被 广泛 
用 作 排 序 的 关键 字 。 此 外 ， 使 用 C 的 字符 串 一 比较 库 函 数 ， 我 们 可 以 把 程序 6.9 中 的 前 三 行 改 为 
typedef char *Item; 
#define key(A) (A) 
#define less(A, B) (strcmp(key(A), key(B)) < 0) 
把 它 转换 为 字符 串 的 接口 。 
这 一 实现 比 起 程序 6.10 更 具有 挑战 性 ， 这 是 因为 当 使 用 C 中 的 字符 串 时 ， 我 们 必须 注意 对 
字符 串 的 内 存 分 配 。 程 序 6.11 使 用 我 们 在 第 3 章 中 (程序 3.17) 考查 过 的 方法 ， 维 持 数 据 类 型 
实现 的 一 个 缓冲 区 。 其 他 选择 还 有 为 每 个 字符 串 动态 分 配 内 存 ， 或 者 在 客户 端 程序 保持 一 个 
缓冲 区 。 我 们 可 以 使 用 这 个 代码 〈 以 及 上 一 段 中 描述 的 接口 ) 来 对 字符 串 进行 排序 ， 只 要 使 
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用 我 们 所 讨论 的 任何 一 种 排序 实现 。 因 为 在 C 中 字符 串 表示 为 指向 字符 数组 的 指针 ， 这 个 程序 
这 指针 排 季 的 一 个 例子， 我 们 很 快 就 会 讨论 它 。 


1 程序 6.11 | 字符 申 计 汪 的 册 Te 
这 个 实现 允许 我 们 使 用 排序 程序 序 来 对 字符 串 排 序 。 字符 串 是 一 个 指向 字符 的 指针 ， 因而 ， 
排序 将 处 理 的 是 指向 字符 的 指针 数组 ， 重 排 字 符 串 使 得 显示 的 字符 串 是 按照 字母 顺序 有 序 。 
在 这 个 模块 中 ， 静 态 分 配 存储 空间 来 存放 字符 串 ， 动 态 分 配 也 许 更 合适 。 省 略 了 ITEMrand 的 
实现 。 
#include <stdio.h> 
#include <stdlib,.h> 
#include <string.h> 
#include "JItem.h' 
static char buf [100000]; 
static int cnt = 0; 
int ITEMscan(char **xX) 
{ int t; 
*X = &buf [cnt]; 
t = scanf("%s", *x); cnt += strlen(*xx)+1; 
return t; 
} 
void ITEMshow(char *x) 
{ printf("%s ", x); } 





只 要 我 们 模块 化 程序 ， 就 会 面临 这 种 类 型 的 内 存 管 理 的 问题 。 谁 应 该 为 具体 实现 某 种 类 
型 的 对 象 的 内 存 管理 负责 ? 是 客户 、 数 据 类 型 实现 还 是 系统 呢 ? 对 于 这 个 问题 没有 硬性 的 答 
案 。 当 这 个 问题 提出 来 时 ， 一 些 程序 设计 语言 的 设计 者 就 变 成 了 福音 。 某 些 现代 程序 设计 系 
统 (不 是 C) 包含 自动 处 理 内 存 管理 的 一 般 机 制 。 我 们 在 第 9 章 讨论 更 复杂 的 一 种 抽象 数据 类 
型 时 ， 再 研究 这 个 问题 。 

(中 间 ) 不 移动 元 素 的 一 种 更 简单 的 排序 方法 是 维持 一 个 索引 数组 ， 其 元 素 中 的 关键 字 仅 
在 比较 时 访问 。 假 定 要 排序 的 元 素 存放 在 数组 data[0] ，…，data[N-1] 中 ， 由 于 某 个 原因 ， 
我 们 并 不 希望 频繁 移动 这 些 元 素 (可 能 它们 数量 巨大 )。 为 了 获得 排序 的 效果 ， 我 们 使 用 元 素 
下 标的 第 二 个 数组 ， 初 始 化 a[i] 为 1，i = 0，…，N-1。 也 就 是 说 ，a[0] 的 值 为 第 一 个 元 素 的 
下 标 ，a[1] 为 第 二 个 元 素 的 下 标 ， 以 此 类 推 。 排 序 的 目标 是 重 排 数组 下 标 ， 使 得 a[0] 中 存放 具 
有 最 小 关键 字 值 的 元 素 的 下 标 ,，a[1] 中 存放 具有 次 小 关键 字 值 的 元 素 的 下 标 , 以 此 类 推 。 然 后 ， 
可 以 通过 下 标 访问 关键 字 值 ， 来 达到 排序 的 效果 。 例 如 ， 我 们 可 以 按照 这 种 方法 ， 输 出 排序 
后 的 数组 。 

我 们 利用 了 一 个 事实 ， 我 们 的 排序 例 程 只 通过 1ess 和 exch 来 访问 数据 。 在 元 素 类 型 的 接 
口 定 义 中 ， 我 们 用 typedef int Item， 指 定 了 所 要 排序 的 元 素 的 类 型 为 整 型 (a 中 的 下 标 ) ， 
而 交换 同 前 ， 但 通过 下 标 使 1ess 指 向 数据 

#define less(A, B) (data[A] < data[B]) 

为 简化 起 见 ， 讨 论 中 假设 数据 是 关键 字 ， 而 不 是 元 素 。 对 于 大 型 、 更 复杂 的 元 素 可 以 使 
用 相同 的 原则 ， 通 过 修改 1ess 来 访问 元 素 中 的 某 些 关 键 字 。 排 序 例 程 重 排 a 中 的 下 标 ， 其 携带 
着 我 们 访问 关键 字 需 要 的 信息 。 重 排 的 一 个 例子 ， 用 两 个 不 同 的 关键 字 值 对 相同 的 元 素 排序 ， 
如 图 6-14 所 示 。 
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0 10 9 Wison 63 
1 4 2 Johnson 86 
2 5 1 Jones 87 
.3 6 0 Smith 90 
4 8 4 Washington 84 
5 7 8 Thompson 65 
6 2 3 Brown 82 
7 3 10 Jackson 61 
8 9 6 White 76 
9 0 5 Adams 86 
10 1 7 Black 71 





图 6-14 索引 排序 示例 
注 : 通过 操纵 下 标 ， 而 不 是 记录 本 身 ， 可 以 同时 按 几 个 关键 字 值 对 数组 进行 排序 。 对 于 这 个 可 能 表示 学 生 名 字 
和 分 数 的 示例 数据 ， 第 二 列 就 是 按照 名 字 排 序 的 索引 结果 ， 第 三 列 就 是 按照 分 数 排序 的 索引 结果 。 例 如 ， 
Wilson 按 字母 顺序 应 排 在 最 后 ， 按 成 绩 排 在 第 10 位 ， 而 Adams 按 字母 顺序 排 在 第 一 位 ， 按 照 分数 排 在 6 位 。 
对 小 于 NN 的 NN 个 不 同 的 非 负 整数 的 重 排 在 数学 上 称 为 排列 (permutation): 下 标 排序 计算 一 种 排列 。 
数学 上 ， 排 列 通 常 被 定义 为 1 到 N 之 间 整 数 的 重 排 ; 我 们 使 用 0 到 N 一 1 来 强调 排列 和 C 语 言 数 组 下 标的 直接 
关系 。 
这 种 下 标 一 数组 的 间接 方法 适用 于 任何 支持 数组 的 程序 设计 语言 。 在 C 中 尤为 吸引 人 的 另 
一 种 可 能 性 就 是 使 用 指针 。 例 如 ， 定 义 数据 类 型 
typedef dataType *Item; 
并 如 下 初始 化 a 
for (i = 0; i < N; i++) a[li] = &datafi] ; 
使 用 下 式 进 行 间接 比较 
#define less(A, B) (*A < *B) 
它 等 价 于 上 面 段 中 所 作 的 描述 。 这 种 方法 称 为 指针 排序 。 刚 才 所 讨论 的 (程序 6.11) 字符 串 
数据 类 型 的 实现 是 指针 排序 的 一 个 例子 。 对 于 定 长 元 素 的 数组 排序 ， 指 针 排 序 实 际 上 等 价 于 
下 标 排序 ， 但 把 数组 的 地 址 添加 到 每 个 索引 中 。 但 指针 排序 更 具 一 般 性 ， 因 为 指针 可 以 指向 
任何 地 方 ， 而 且 待 排序 的 元 素 的 大 小 也 不 需 固定 。 因 为 在 索引 排序 中 这 是 正确 的 。 如 果 a 是 一 
个 指向 关键 字 的 数组 ， 那 么 对 sort 的 调用 将 会 导致 指针 被 重 排 ,以 使 对 它们 的 顺序 访问 将 会 
按 序 访问 关键 字 。 我 们 通过 以 下 指针 实现 比较 操作 ， 并 通过 交换 指针 实现 交换 操作 。 
标准 C 排 序 库 函 数 qsort 是 一 个 指针 排序 ( 见 程序 3.17)。 该 函数 有 4 个 参数 ， 数组 ， 待 排 
序 的 元 素数 ， 元 素 的 大 小 和 一 个 指向 比较 两 个 元 素 的 指针 ， 给 定 指向 元 素 的 指针 。 例 如 ， 如 
果 Item 为 char*， 那 么 以 下 代码 实现 了 以 上 规定 的 字符 串 排 序 : 


int compare(void *i, void *j) 

{ return strcmp(*(Item *)i, *(Item *)]j); } 
void sort(Item a[], int 1, int r) 

{ qsort(a, r-1l+1, sizeof (Item), compare); } 


虽然 基本 算法 并 没有 在 接口 中 指定 ， 但 快速 排序 ( 见 第 7 章 ) 被 广泛 使 用 。 在 第 7 章 中 ， 我 们 
将 分 析 许 多 导致 这 种 情况 的 原因 。 在 本 章 和 第 7 章 至 第 11 章 里 ， 我 们 还 研究 一 些 适 合 特定 应 用 
的 其 他 方法 ， 在 时 间 成 为 应 用 的 关键 要 素 时 ， 探 索 加 快 计算 时 间 的 方法 。 

使 用 下 标 或 指针 的 主要 原因 是 避免 扰乱 所 要 排序 的 数据 。 我 们 可 以 对 一 个 只 读 访 问 的 文 
件 进行 “排序 " 。 此 外 ， 对 于 多 下 标 或 指针 数组 ， 可 以 只 对 一 个 文件 的 多 关键 字 值 〈( 见 图 6-14) 
排序 。 这 种 操纵 数据 而 又 不 改变 数据 的 灵活 性 在 许多 应 用 中 非常 有 用 。 
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操纵 下 标的 第 二 个 原因 是 我 们 可 以 避免 移动 整个 记录 。 对 于 大 型 记录 (和 小 关键 字 值 ) 
所 节省 的 开销 是 巨大 的 ， 因 为 比较 操作 只 访问 一 小 部 分 记录 ， 在 排序 过 程 中 ， 大 部 分 记录 是 
不 相 邻 的 。 间 接 方法 使 得 交换 的 开销 几乎 和 平均 情况 下 涉及 任意 记录 的 比较 操作 的 开销 一 样 
(需要 额外 的 下 标 或 指针 空间 )。 实 际 上， 如 果 关 键 字 较 长 ， 交 换 比 比较 的 代价 小 。 当 我 们 估 
计 方 法 对 整 型 文件 的 运行 时 间 时 ， 常 常 假设 比较 和 交换 的 开销 绝 然 不 同 。 基 于 这 一 假设 的 结 
论 可 以 应 用 到 更 广 一 类 的 应 用 问题 ， 如 果 我 们 使 用 指针 排序 或 下 标 排序 。 

在 典型 应 用 中 ， 指 针 可 用 于 访问 含有 几 个 可 能 关键 字 的 记录 。 例 如 ， 访 问 由 学 生 名 字 和 
分 数 或 是 雇员 名 字 和 年 龄 组 成 的 记录 ; 


struct record { char [30] name; int num; } 


程序 6.12 和 程序 6.13 给 出 了 一 个 指针 排序 接口 和 实现 的 例子 ， 人 允许 域 作为 关键 字 值 进行 排 
序 。 记 录 也 可 以 使 用 指针 数组 、1ess 也 可 声明 为 函数 ， 而 不 只 是 一 个 宏 。 因 此 对 于 不 同 的 排 
序 应 用 ， 我 们 可 以 给 出 less 的 不 同 实现 。 例 如 ， 如 果 我 们 使 程序 6.13 与 包含 以 下 程序 段 的 文 
件 一 起 编译 : 


#include "Item.h" 
int less(Item a, Item b) 
{ return a->num < b->num; } 


那么 我 们 得 到 元 素 的 类 型 ， 任 意 sort 实 现 都 将 会 基于 这 种 类 型 在 整 型 域 上 进行 指针 排序 。 否 
则 ， 我 们 会 选择 记录 的 字符 串 域 对 关键 字 值 排序 。 如 果 我 们 使 程序 6.13 与 包含 以 下 程序 段 的 
文件 一 起 编译 


#include <string.h> 
#include "Item.h" 
nt less(Item a, Item b) 
{ return strcmp(a->name, b->name) < 0; } 


那么 我 们 得 到 元 素 的 类 型 ， 任 意 sort 实 现 都 将 会 基于 这 种 类 型 在 字符 串 域 上 进行 指针 排序 。 

对 于 许多 应 用 ， 数 据 不 需要 在 物理 上 重 排 成 与 下 标 指 示 的 顺序 ， 我 们 可 以 简单 地 使 用 索 
引 数组 按 顺序 访问 它们 。 如 果 这 种 方法 还 不 满足 实际 应 用 ， 我 们 就 做 经 典 程序 设计 的 练习 : 
如 何 使 用 索引 排序 重 排 一 个 有 序 的 文件 ? 代码 ， 


for (i = 0; i < N; i++) datasorted[i] = datalali]]; 


虽 简 单 ， 却 要 求 额外 足够 内 存 空间 来 存储 数组 的 一 个 复制 。 当 没有 足够 的 空间 时 ， 情 况 
会 如 何 ? 我 们 不 能 盲目 设置 datafi] = datafari]]j， 这 是 因为 它们 会 过 早 地 覆盖 掉 以 前 的 
data[i] 值 。 


程序 6.12 记录 数据 项 的 数据 类 型 接口 


每 个 记录 有 两 个 关键 字 值 ， 第 一 个 域 是 字符 串 关 键 字 (例如 ， 名 字 )， 第 二 个 域 是 整 型 关 
键 字 (例如 ， 分数 )。 比 较 操 作 1ess 被 定义 为 函数 ， 而 不 是 一 个 宏 ， 因 而 我 们 可 以 通过 改变 实 
现 来 改变 排序 的 关键 字 。 


struct record { char name[30] ; int num; }; 

typedef struct record* Itenm; 

#define exch(A, B) { Item t = A; A=B; B= +t; } 

#define compexch(A, B) if (less(B，A)) exch(A, B); 
int less(Item, Item); 

Item ITEMrand(); 
int ITEMscan(Item *); 

void ITEMshow(Item); 
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程序 6.13 记录 元 素 的 数据 类 型 实现 


记录 操作 中 函数 ITEMscan 和 ITEMshow 的 实现 方式 类 似 于 程序 6.11 中 字符 串 数据 类 型 的 实 
现 方 式 ， 它 们 都 为 记录 分 配 内 存 空 间 并 维持 这 个 空间 。 我 们 把 1ess 实 现 放 在 另外 的 文件 中 ， 
因而 我 们 无 需 改变 任何 其 他 代码 ， 就 可 以 替换 不 同 的 实现 ， 改 变 排 序 关键 字 。 
struct record data [maxN] ; 
int Nrecs = 0; 
int ITEMscan(struct record **x) 
{ 
*x = &data[Nrecs]; 
return scanf("%30s %d\n", 
data[Nrecs] .name, &data[Nrecs++] .num); 
} 
void ITEMshow(struct record *x) 
{ printf ("%3d %-30s\n", x->num, x->name); } 


图 6-15 找 绘 了 如 何 扫 描 一 遍 文 件 解决 这 个 问题 。 为 了 移动 所 属 的 第 一 个 元 素 ， 我们 把 那 
个 位 置 的 元 素 移动 到 它 应 到 的 位 置 ， 等 等 。 继 续 这 个 推理 过 程 ， 我 们 最 终 会 找到 移动 到 第 一 
个 位 置 的 元 素 ， 在 那 一 点 上 ， 我 们 已 经 把 元 素 移动 了 一 圈 。 接 着 ,我 们 移 到 第 二 个 元 素 ， 并 
执行 循环 的 相同 操作 ， 等 等 (我 们 遇 到 的 已 在 位 置 a[1] = i 上 的 元 素 是 在 长 为 1 的 循环 上 ， 且 
不 需 移动 )。 
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图 6-15 原 位 排序 


注 : 在 原 位 上 重 排 数 组 ， 从 左 到 右 移动 元 素 。 可 以 循环 移动 元 素 。 这 里 ， 有 四 种 循环 : 第 一 种 和 最 后 一 种 是 单 
个 元 素 的 退化 的 情形 。 第 二 种 循环 从 1 开始 。S 变 为 临时 变量 ， 在 位 置 1 留 下 一 个 洞 。 移 动 第 二 个 A 在 位 置 10 
留 下 一 个 洞 。 这 个 洞 由 P 来 填充 ， 但 它 在 位 置 12 留 下 一 个 洞 。 这 个 洞 被 位 置 1 处 的 元 素 填充 ， 因 而 所 保留 的 
S 填 充 那 个 洞 ， 完 成 循环 1 10 12 把 那些 元 素 放 到 位 上 。 类 似 地 ， 逢 环 286 1347 11 3 14 9 完成 排序 。 


特别 是 ， 对 于 每 个 值 1 ， 我 们 存储 数据 data[i] 的 值 ， 并 初始 化 下 标 变量 k 为 1。 现 在 ， 考 
虑 数组 i 处 的 一 个 洞 ， 并 寻找 一 个 元 素来 填充 这 个 洞 。 这 个 元 素 是 data[a[k]]， 换 句 话说， 赋 
值 data[k] = data[a[k]] 把 洞 移 到 了 a[k]。 现 在 洞 是 在 data[a[k]]， 因 而 我 们 设置 k 为 a[k] 。 
反复 地 ， 我 们 最 终 得 到 洞 需要 data[i] 来 填充 的 这 样 一 种 情况 ， 它 是 我 们 已 经 存储 过 的 。 当 我 
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们 把 一 个 元 素 移 到 位 置 上 后 ， 我 们 更 新 数组 a 来 表明 。 任 何在 位 元 素 都 有 a[i] = 1， 并 且 所 列 
出 的 过 程 只 是 那 种 情况 的 一 部 分 。 继 续 访问 数组 ， 每 当 遇 到 尚未 移动 的 一 个 元 素 时 ， 就 做 一 
次 新 的 循环 操作 ， 每 个 元 素 至 多 移动 一 次 。 程 序 6.14 是 这 个 过 程 的 一 种 实现 。 


i 








1 


数组 data[0] ，…，data[N-1] 被 重 排 后 直接 放 在 a[0] ，…，a[N-1]。 任 何 afi] == i 的 
元 素 已 被 放 在 位 ， 不 再 需要 参与 排序 过 程 。 否 则 ， 执 行 a[i]，a[a[i]]，a[a[ari]]]，…， 
等 等 ， 使 data[i] 存 储 v， 直 到 再 次 碰 到 下 标 i 为 止 。 对 于 下 一 个 不 在 位 的 元 素 再 次 执行 如 下 的 
过 程 ， 继 续 这 一 过 程 ， 直 到 整个 文件 有 序 ， 每 个 记录 只 移动 一 次 。 


insitu(dataType data[], int a[], int N) 
{ int i, j, k; 
for (i = 0; i < Ni i++) 

{ dataType v = data[i]; 

for (Kk = i; a[lk] != i; k = a[j], a[j] = j) 
{j= k; data[k] = data[a[k]]; } 

data[k] = v; a[k] = k; 

} 





} 


这 个 过 程 称 为 合适 置换 ， 或 文件 的 原 位 重 排 。 虽 然 这 个 算法 很 有 趣 ， 但 在 多 数 应 用 中 不 
需要 使 用 。 因 为 间接 地 访问 数据 已 经 足够 了 。 同 样 地 ， 如 果 记 录 相 对 于 其 数目 巨大 ， 最 高 效 
的 选择 是 使 用 常规 选择 排序 简单 地 对 它们 重新 排列 〈 见 性 质 6.5) 。 

间接 排序 要 求 额外 空间 来 存储 下 标 或 指针 数组 ， 以 及 额外 时 间 进 行 间接 比较 。 在 许多 应 
用 中 ， 比 起 根本 不 需 移动 数据 的 灵活 性 ， 这 些 开销 不 大 。 对 于 由 大 型 记录 组 成 的 文件 ， 我 们 
几乎 总 是 选择 使 用 间接 排序 ， 对 于 许多 应 用 ， 我 们 发 现 不 需 移动 数据 。 在 本 书 中 ， 我 们 通常 
直接 访问 数据 。 然 而 ， 在 少数 应 用 中 ， 我 们 的 确 使 用 指针 或 索引 数组 来 避免 数据 移动 ， 和 这 
里 提 到 的 原因 完全 一 样 。 
练习 
6.56 给 出 元 素 类 型 的 一 种 实现 ， 其 中 元 素 是 记录 ， 不 是 指向 记录 的 指针 。 这 种 重 排 可 能 是 
适合 于 程序 6.12 和 程序 6.13 中 的 小 型 记录 。( 记 住 C 支 持 结构 赋值 。) 

06.57 显示 如 何 使 用 qsort 解 程序 6.12 和 程序 6.13 中 强调 的 排序 问题 。 

>6.58 ”对 关键 字 值 为 E A SY QU ESTIO N 进 行 索引 排序 ， 给 出 得 到 的 索引 数组 。 

>6.59 ”对 关键 字 值 为 E A S Y Q UE STIO N 进 行 索引 排序 ， 把 它们 放 到 位 置 上 ,给 出 需要 移 
动 的 数据 序列 。 

6.60 ”描述 大 小 为 N 的 一 个 排列 (一 组 数组 值 )， 使 程序 6.14 中 a[i] != i 的 个 数 达 到 最 大 。 
6.61 证明 在 程序 6.14 中 移动 关键 字 并 留 下 洞 时 ， 保 证 能 回 到 此 关键 字 开 始 的 地 方 。 

6.62 ”实现 像 程序 6.14 那 样 的 一 个 程序 ， 相 当 于 指针 排序 。 假 设 指针 指向 类 型 为 Item 的 N 个 记 
录 的 数组 。 


6.9 链表 排序 


由 第 3 章 可 知 ， 数 组 和 链表 为 我 们 提供 了 两 种 最 基本 的 数据 结构 ， 在 第 3.4 节 中 我 们 考虑 
了 插入 排序 的 一 种 实现 程序 3.11)， 使 用 链表 作为 表 处 理 的 例子 。 在 排序 实现 中 考虑 的 一 点 
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是 ， 都 假设 待 排序 的 数据 是 在 数组 中 ， 这 不 能 直接 应 用 ， 因 为 我 们 所 在 的 系统 使 用 链表 来 组 
织 数据 。 在 某 些 情况 下 ， 只 有 在 处 理 数 据 能 够 按照 高 效 支持 链表 操作 的 顺序 方式 时 ， 算 法 才 
会 有 用 。 

程序 6. 15 给 出 了 链表 数据 类 型 的 一 个 类 似 程序 序 6.7 的 接口 。 有 了 程序 6.15， 与 程序 6.6 对 应 
的 驱动 程序 只 有 一 行 代码 : 


main(int argc, char *argv[]) 
{ show(sort(init(atoi(argv [1])))); } 


大 多 数 工 作 (包括 内 存 分 配 ) 留 给 了 链表 和 sort 实 现 。 和 数组 驱动 程序 一 样 ， 我 们 希望 (或 
者 通过 标准 输入 ， 或 者 通过 随机 值 ) 初始 化 链表 ， 显 示 表 中 的 内 容 ， 当 然 还 有 排序 。 通 常 ， 
我 们 使 用 Item 来 表示 待 排序 的 元 素 的 类 型 ， 如 同 在 6.7 节 那样 。 实 现 这 一 接口 的 例 程 的 代码 对 
于 链表 类 是 标准 的 ， 我 们 在 第 3 章 中 分 析 过 ， 且 留 作 练习 。 


程序 6.15” 链 表 类 型 接口 定义 ， a 

可 以 把 链表 的 这 个 接口 与 程序 6. 7 中 关于 数组 的 接口 进行 对 比 。 init 国 数 创建 链表 ， 包 括 
存储 分 配 。show 函 数 打 印 表 中 的 关键 字 值 。 排 序 程序 使 用 1ess 来 比较 元 素 ， 并 操纵 指针 来 重 
排 元 素 。 这 里 我 们 并 没有 指定 链表 是 否 有 头 节 点 。 

typedef struct node *link; 

struct node { Item item; link next; }; 

link NEW(Item, link); 

link init(int); 

void show(link); 

link sort (link); 


操纵 许多 应 用 中 关键 的 链 式 结构 有 一 条 基本 规则 ， 但 在 这 个 代码 中 不 那么 明显 。 在 更 复 
杂 的 环境 中 ， 可 能 是 这 样 一 种 情况 ， 指 向 我 们 正在 操纵 的 表 节 点 的 指针 是 由 应 用 系统 的 其 他 
一 些 部 分 来 维护 的 〈 即 它们 是 多 重 链表 ) 。 通 过 在 排序 之 外 所 维护 的 指针 引用 节点 的 可 能 性 意 
味 着 ， 我 们 的 程序 只 能 改变 节点 中 的 链接 ， 而 不 能 改变 关键 字 值 或 其 他 信息 。 例 如 ， 当 我 们 
想 要 进行 交换 时 ， 似 乎 是 最 简单 的 ， 只 需 交 换 元 素 (如 在 排序 数组 中 那样 )。 但 是 指向 带 有 某 
个 其 他 链接 的 节点 的 引用 可 能 会 发 现 值 被 改变 了 ， 可 能 导致 不 想 要 的 结果 。 我 们 需要 改变 链 
接 本 身 ， 以 使 经 由 链接 访问 来 志 历 链表 时 ， 节 点 是 按照 顺序 出 现 的 ， 同 时 经 由 其 他 链接 访问 
时 不 影响 它们 的 顺序 。 这 样 做 会 使 实现 过 程 更 困难 ， 但 通常 是 必须 的 。 

我 们 可 以 修改 插入 排序 、 选 择 排序 和 冒 泡 排序 ， 使 其 适合 于 链表 实现 ， 虽然 每 种 修改 都 
是 很 有 趣 的 挑战 。 选 择 排序 很 直接 : 维持 一 个 输入 表 (初始 时 含 数据 ) 和 一 个 输出 表 (用 于 
收集 排序 结果 )， 并 简单 地 扫描 表 来 找 出 输入 表 中 的 最 大 元 素 ， 然 后 从 表 中 去 除 ， 把 它 添 加 到 
输出 表 的 前 面 ( 见 图 6-16) 。 实 现 这 个 操作 是 链表 操纵 的 一 个 简单 练习 。 对 于 短 列 表 排 序 很 高 
效 。 程 序 6.16 给 出 了 它 的 一 种 实现 。 我 们 把 其 他 方法 留 作 练习 。 


1 
链表 选 笃 排 序 简单 ， 但 与 数组 版 本 的 排序 稍 有 不 同 ， 因 为 它 在 链表 之 前 易于 插入。 我 人 
维持 一 个 输入 的 列表 (用 h->next 指 向 这 个 列表 )， 和 一 个 输出 列表 (out 指 向 它 )。 当 列表 非 
空 时 ， 我 们 扫描 这 个 输入 列表 ， 找 出 表 中 剩余 的 最 大 元 素 ; 然后 从 输入 表 中 去 除 这 个 元 素 ， 
并 把 它 插入 到 输出 表 的 前 面 。 这 一 实现 使 用 了 辅助 的 例 程 findmax， 它 返回 一 个 指向 节点 的 链 
接 ， 该 节点 的 链接 指向 表 中 的 最 大 元 素 ( 见 练习 3.34)。 
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link listselection(link h) 
{ link max, t, out = NULL; 
while (h->next != NULL) 
{ 
max = findmax(h); 
t = max->next; max->next = t->next; 
t->next = out; out = 七; 
} 
h->next = out; 
return(h); 


} 
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图 6-16 链表 选择 排序 
注 : 该 图 档 述 了 链表 选择 排序 中 的 一 步 。 我 们 维持 一 个 输入 列表 ， 通 过 指针 h ->next 指 向 ， 及 一 个 输出 列表 ， 
通过 out (上 图 ) 指向 。 遍历 该 输入 链表 ,使 Wax 指针 指向 包含 最 大 元 素 节 点 (t 指 针 指 向 ) 的 前 一 个 节点 。 
将 t 所 指向 的 节点 从 输入 列表 中 删除 (长度 减 1) ， 将 它 加 到 输出 列表 的 最 前 端 (长 度 加 1) ， 使 输出 列表 保 
持 按 顺 序 排列 (下 图 ) 。 重 复 这 样 的 操作 ， 直 到 输入 列表 为 空 ， 节 点 在 输出 列表 中 按 顺 序 排列 。 


在 某 些 表 处 理 中 ， 我 们 可 能 不 需要 详细 地 实现 排序 的 过 程 。 例 如 ， 我 们 可 以 像 播 入 排序 
那样 ， 通 过 向 表 中 插入 新 元 素 始 终 使 表 有 序 。 如 果 在 某 种 情况 ， 如 插入 不 多 或 者 列表 较 小 时 ， 
这 种 方法 带 来 的 额外 开销 不 大 。 例 如 ， 由 于 某 些 原因 (也 许 检 查 重复 元 素 ) 我 们 可 能 在 插入 
新 节点 之 前 ， 需 要 扫描 整个 列表 。 我 们 将 在 第 14 章 讨论 一 个 使 用 有 序 表 的 算法 ， 并 且 在 第 12 
章 和 第 14 章 我 们 会 看 到 很 多 数据 结构 从 有 序 性 获得 了 高 效率 。 


练习 
>6.63 ”给 出 使 用 程序 6.16 对 关键 字 值 A SO RTIN GEXAMPL 人 E 进 行 操作 时 ， 输 入 列表 及 
输出 列表 中 的 内 容 。 


6.54 给 出 程序 6.15 中 链表 接口 程序 的 一 种 实现 。 

6.65 ”实现 链表 排序 的 一 种 性 能 驱动 的 客户 程序 〈 见 练习 6.9) 。 

6.66 ”实现 对 链表 的 冒 泡 排序 。 注 意 ; 交换 链表 中 的 两 个 相 邻 元 素 要 比 乍 看 起 来 难 。 

“6.67 ”封装 程序 3.11 中 的 搬入 排序 代码 ， 使 其 和 程序 6.16 有 同样 的 功能 。 

6.68 程序 3.11 中 使 用 的 插入 排序 方法 ， 使 链表 插 人 排序 在 某 些 输入 文件 中 要 比 数 组 类 型 的 
文件 运行 慢 得 多 。 描 述 一 个 这 样 的 文件 ， 并 解释 原因 。 
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“6.69 ”实现 基于 链表 的 希 尔 排序 ， 使 其 对 于 大 型 随机 文件 ， 比 起 基于 数组 的 希 尔 排序 所 开销 
时 间或 空间 没有 明显 的 增加 。 提 示 ， 使 用 冒 泡 排序 。 
“6.70 实现 序列 (sequence) 的 ADT， 允 许 使 用 单个 驱动 程序 来 调试 链表 和 数组 程序 ， 例 如 ， 
使 用 以 下 代码 : 
#include "Item ,了 " 
#include "SEQ.h" 
main(int argc, char *argv[]) 
{ int N= atoi(argv[1]), sw = atoi(argv[2]); 
if (sw) SEQrandinit(N); else SEQscaninit (&N); 
SEQsort (); 
} SEQshow() ; 


也 就 是 说 ， 客 户 程序 创建 一 个 N 个 元 素 的 序列 (或 者 随机 产生 ， 或 者 从 标准 输入 文件 读 人 )， 
对 序列 排序 ， 或 者 显示 它 的 内 容 。 编 写 一 个 使 用 数组 表示 和 另 一 个 用 链表 表示 的 实现 。 使 用 
选择 排序 。 

6.71 扩展 练习 6.70 的 实现 ， 使 它 成 为 一 个 一 级 ADT。 


6.10 ”关键 字 索 引 统计 


许多 排序 算法 使 用 了 关键 字 的 特殊 性 质 来 提高 效率 。 例 如 ， 考 虑 以 下 问题 : 对 N 个 位 于 0 
到 N 一 1 的 不 同 关键 字 的 整 型 元 素 的 一 个 文件 进行 排序 。 使 用 一 个 临时 数组 Bp， 可 以 很 快 解决 这 
个 问题 ， 数 组 声明 如 下 

for (i = 0; i < N; i++) b[key(a[i])] = a[i]; 
也 就 是 说 ， 使 用 关键 字 作为 索引 进行 排序 ， 而 不 只 是 用 作 进 行 比较 的 抽象 元 素 。 在 这 一 节 里 ， 
我 们 考虑 一 种 使 用 关键 字 索 引 按 照 这 种 思路 进行 高 效 排序 的 基本 方法 ， 其 中 关键 字 是 在 一 个 
小 范围 内 的 整数 。 

如 果 所 有 关键 字 为 0， 排 序 是 平凡 的 。 现 假设 有 两 个 不 同 的 关键 字 0 和 1。 这 种 排序 问题 会 
发 生 在 希望 把 元 素 从 一 个 文件 中 分 离 出 的 情况 ， 满 足 某 些 (可 能 是 复杂 的 ) 接受 测试 ， 取 关 
键 字 的 值 为 0 表示 “接受 ”， 关 键 字 的 值 为 1 表示 “拒绝 ”。 一 种 方法 是 计算 0 的 个 数 ， 然 后 再 次 
扫描 输入 a， 使 用 两 个 表示 统计 数 的 一 个 数组 ， 把 元 素 分 布 在 临时 数组 b 中 。 从 cnt[0] = 0 开 
始 ，cnt[1] 中 保存 值 为 0 的 关键 字 的 个 数 ， 这 说 明文 件 中 没有 关键 字 的 值 小 于 0， 有 cnt[1] 个 
关键 字 的 值 小 于 1。 显 然 ， 数 组 b 中 ， 开 始 时 填 人 0 (从 b[cnt[0]] 或 b[0]) ， 而 从 bp[cnt[1]] 开 
始 填 1， 代 码 如 下 : 

for (1 = 0 ; i < N; i++)brcnt[ari]]tt+ ] = ari]l ; 
负责 把 a 中 的 元 素 分 发 到 b 中 。 因 此 ， 使 用 关键 字 作 为 索引 (在 cnt[0] 和 cnt[1] 之 间 选 择 )， 
我 们 得 到 一 种 快速 排序 方法 。 在 这 种 简单 的 情况 下 ， 我 们 可 以 使 用 一 条 if 语句 在 两 个 统计 数 
之 间 做 出 选择 ， 但 是 使 用 关键 字 作为 索引 的 方法 可 以 直接 推广 到 处 理 多 于 两 个 关键 字 的 值 的 
情况 〈 只 需 多 于 两 个 统计 数 ) 。 

明确 地 说 ， 一 个 具有 相同 思想 的 更 实际 的 问题 是 : 对 N 个 键 值 在 0~M--1 之 间 的 元 素 进行 排 
序 。 我 们 可 以 将 上 一 段 所 讨论 的 算法 扩展 成 为 一 个 称 为 关键 字 索 引 统计 的 算法 ， 当 M 不 是 很 
大 时 ， 该 算法 可 以 高 效 地 解决 这 个 问题 。 和 只 包含 两 种 关键 字 值 的 情况 类 似 ， 思 路 是 先 统计 
各 种 不 同 值 的 个 数 ， 然 后 根据 统计 数 将 元 素 分 布 到 各 位 置 上 。 首 先 ， 统 计 各 关键 字 的 数目 ， 
然后 ， 统 计 等 于 及 小 于 各 值 的 关键 字 的 数目 。 最 后 ， 和 只 有 两 个 值 的 情况 一 样 ， 根 据 这 些 统 
计数 分 配 元 素 。 对 于 每 个 关键 字 ， 我 们 把 它 相 关 的 统计 数 看 作 索 引 ， 指 到 有 同一 值 的 关键 字 
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的 块 的 末尾 ， 使 用 索引 把 关键 字 分 布 到 b 中 ， 每 次 统计 数 减 1。 算 法 高 效 的 一 个 原因 是 不 需要 
遍历 if 语 句 的 链 来 确定 访问 哪 一 个 统计 数 ， 使 用 关键 字 作 为 索引 ， 我 们 很 快 就 能 找到 正确 的 
位 置 。 这 个 过 程 在 图 6-17 中 描述 。 程 序 6.17 给 出 了 它 的 一 种 实现 。 


int b [maxN] ; 


for (j = 
for (i 
for (j 
for (i 
for (i 


} 


性 质 6.12 假如 不 同 关键 字 值 的 范围 位 于 文件 大 小 的 常数 因子 内 ， 


线性 排序 算法 。 
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图 6-17 关键 字 索 引 统计 排序 


注 : 首先 ， 我 们 测定 文件 中 不 同 值 的 关键 字 的 个 数 分 别 是 多 少 : 本 例 中 有 6 个 0，4 个 1，2 个 2 和 3 个 3。 接 着 ， 进 
行 局 部 统计 ， 得 出 比 其 他 关键 字 小 的 关键 字 的 数目 ，0 个 关键 字 比 0 小 ，6 个 关键 字 比 1 小 ，10 个 关键 字 比 2 
小 ，12 个 关键 字 比 3 小 〈 中 间 的 表格 ) 。 接 着 ， 我 们 把 这 些 统计 数 作 为 索引 将 关键 字 放 到 合适 的 位 置 : 在 文 
件 的 开头 的 0 放 到 位 置 0; 根据 0， 增 加 指针 值 ， 使 之 指向 下 一 个 0 应 该 到 的 位 置 。 接 着 ,文件 左边 第 二 位 的 
3 放 到 位 置 12 (因为 有 12 个 关键 字 比 3 要 小 ) ; 它 相 应 的 数 增加 ， 以 此 类 推 。 


程序 6.17 关键 字 索 引 统计 

第 一 个 for 循 环 将 总 量 初始 化 为 0， 第 二 个 for 循 环 将 第 二 个 统计 数 设 为 数目 9， 将 第 三 个 
统计 数 设 为 数 上 且 1， 以 此 类 推 。 接 着 ,第 三 个 for 循 环 只 是 将 这 些 数 目 相 加 ， 根 据 统 计 ， 分 别 
计算 比 某 关 键 字 要 小 或 相等 的 关键 字 的 总 数 。 这 些 数目 显示 了 关键 字 在 文件 中 所 属 的 结尾 处 
的 索引 。 第 四 个 for 循 环 根据 这 些 索 引 将 关键 字 移 到 了 辅助 数组 pb 中， 而 最 后 一 个 循环 将 已 排 
好 序 的 文件 写 回 到 a 中 。 该 代码 中 ， 关 键 字 必 须 是 小 于 M 的 整数 ， 我 们 可 以 对 它 进行 修改 ， 使 
它 可 以 从 更 复杂 的 元 素 中 提取 这 样 的 关键 字 ( 见 练习 6.75)。 


void distcount(int a[], int 1, int r) 
{ int i, j, cnt[M]; 


j++) 
i++) 
j++) 
i++) 
i++) 


cnt[j] = 0; 

cnt [a[i]+1]++; 

cnt [jl] += cnt[j-1]; 
b[lcnt[La[li]]++] = af[i] ; 
a[i] = b[i-1]; 


关键 字 索 引 统 计 是 一 种 
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每 个 元 素 移动 两 次 :一 次 是 对 元 素 进行 分 布 ， 一 次 是 将 元 素 移 回 到 原来 的 数组 中 ， 每 个 关 
键 字 被 引用 两 次 ,一 次 是 进行 统计 ， 一 次 是 进行 分 布 。 算 法 中 的 两 个 for 循 环 包括 构建 统计 数 ， 
而 除非 统计 的 个 数 比 文件 的 大 小 要 大 得 多 ， 否 则 这 两 个 循环 不 会 影响 到 整个 运行 时 间 。 是 
如 果 进 行 排序 的 文件 很 大 ， 使 用 辅助 数组 b 会 导致 内 存 分 配 问 题 。 我 们 可 以 通过 修改 程序 
6.17 来 使 用 恰当 的 空间 完成 排序 操作 (避免 使 用 额外 的 数组 )， 使 用 的 方法 和 程序 6.14 中 的 方 
法 相似 。 该 操作 与 在 第 7 章 和 第 10 章 中 讨论 的 基本 排序 方法 密切 相关 ， 因 此 我 们 推迟 到 12.3 节 
的 练习 12.16 和 练习 12.17 中 进行 讨论 。 在 第 12 章 中 我 们 会 发 现 ， 节 省 空间 的 操作 斩 牲 了 算法 的 
稳定 性 ， 这 样 就 限制 了 算法 的 效用 ， 因 为 包含 大 量 重复 关键 字 的 文件 经 常 还 带 有 其 他 相关 的 
关键 字 ， 这 些 关键 字 的 相对 顺序 不 应 改变 。 在 第 10 章 中 ， 我 们 会 考察 一 个 非常 重要 的 例子 。 
练习 
26.72 编写 一 个 特殊 的 关键 字 索 引 排 序 ， 对 元 素 只 有 三 种 值 (a、b 或 c) 的 文件 进行 排序 。 
6.73 假设 对 一 个 随机 排列 的 文件 进行 播 人 排序 ， 其 中 该 文件 数据 只 能 具有 三 种 值 之 一 。 该 
运行 时 间 是 线性 的 、 二 次 的 ， 还 是 两 者 之 间 的 ? 
6.74 对 文件 ABRACADABRA 进 行 关键 字 索 引 统计 排序 ， 显 示 其 执行 过 程 。 
6.75 ”对 元 素 较 大 、 包 含 范围 较 小 的 整数 关键 字 的 文件 执行 关键 字 索 引 统计 。 
6.76 ” 按 指 针 排序 实现 关键 字 索 引 统计 。 


第 7 章 快速 排序 


， ”本 章 讨论 排序 算法 中 应 用 最 广泛 的 快速 排序 算法 。 最 基本 的 快速 排序 算法 是 由 C.A.R， 
Hoare 在 1960 年 提出 的 , 从 那 时 起 , 这 一 算法 被 许多 人 作 了 进一步 研究 ( 见 第 三 部 分 参考 文献 )。 
快速 排序 算法 之 所 以 这 样 通用 是 因为 它 易于 实现 ， 它 可 以 处 理 多 种 不 同 的 输入 数据 ， 许 多 情 
况 下 它 所 需要 的 资源 也 比 其 他 排序 算法 少 。 

快速 排序 算法 具有 一 些 理想 特征 ， 如 原 位 排序 (只 使 用 一 个 小 的 辅助 栈 )， 对 入 个 数据 项 
排序 的 平均 时 间 只 与 N log N 成 正比 ， 并 且 它 内 部 的 循环 很 小 。 它 的 缺点 是 它 是 不 稳定 的 排序 
算法 ， 在 最 坏 情 况 下 执行 N 次 操作 ， 而 且 它 很 脆弱 ， 如 果实 现 上 有 一 个 小 错误 未 被 察觉 ， 就 
会 使 它 的 性 能 对 于 某 些 文件 变 得 很 差 。 

快速 排序 算法 的 性 能 很 好 理解 ， 已 对 它 进 行 过 完全 的 数学 分 析 ， 而 且 我 们 可 以 对 它 的 性 
能 作出 精确 的 陈述 。 算 法 的 分 析 也 经 过 广泛 的 实验 验证 ， 快 速 排序 经 过 多 次 精炼 ， 已 经 是 许 
多 实际 排序 应 用 中 所 选择 的 算法 。 因 此 ， 值 得 更 好 地 研究 高 效 实现 快速 排序 的 各 种 算法 。 类 
似 的 实现 还 可 以 用 于 其 他 算法 。 我 们 可 以 放心 地 使 用 快速 排序 算法 ， 因 为 我 们 可 以 肯定 它 对 
性 能 的 影响 。 

对 快速 排序 算法 的 改进 一 直 是 诱 人 的 尝试 : 一 个 更 快 的 排序 算法 是 计算 机 科学 领域 的 
“更 好 的 捕 鼠 器 ” ， 快 速 排序 算法 就 是 需要 修正 的 首选 方法 。 几 乎 从 Hoare 第 一 次 发 表 这 个 算法 
的 时 候 起 ， 它 的 改进 版 本 就 不 断 出 现 。 其 中 很 多 方法 都 经 过 实验 和 分 析 ， 人 们 很 容易 被 这 些 
改进 版 本 所 蒙骗 ， 因 为 这 些 算法 将 程序 的 某 一 部 分 性 能 提高 的 同时 往往 将 另 一 部 分 性 能 降低 。 
我 们 将 详细 地 讨论 三 个 改进 版 本 。 

一 个 经 过 仔细 调整 的 快速 排序 算法 应 该 在 大 多 数 计算 机 上 运行 得 比 其 他 排序 算法 要 快 得 
多 ,而 且 快 速 排序 算法 已 经 作为 一 个 库 排序 实用 程序 用 于 其 他 排序 领域 。 实 际 上 ， 标 准 C 库 中 
的 排序 程序 被 称 为 gsort ， 因 为 快速 排序 是 实现 中 的 最 基本 的 算法 。 然 而 ， 快 速 排序 的 运行 时 
间 取 决 于 输入 ， 从 待 排序 的 输入 数据 项 的 线性 关系 到 平方 关系 ， 人 们 常常 对 一 些 输 入 数据 的 
意 想不到 的 结果 感到 吃惊 ， 尤 其 是 在 一 些 改进 较 大 的 版 本 中 。 如 果 一 个 应 用 程序 不 能 确定 使 
用 快速 排序 算法 是 否 正 确 ， 那 么 它 最 好 使 用 希 尔 排序 ， 因 为 希 尔 排序 在 实现 时 不 需要 太 多 的 
分 析 调 查 。 然 而 对 于 大 型 文件 ， 快 速 排 序 算法 的 性 能 是 希 尔 排序 的 5 倍 到 10 倍 ， 它 还 可 以 更 高 
效 地 处 理 在 实际 问题 中 可 能 遇 到 的 其 他 类 型 的 文件 。 


7.1 基本 算法 


快速 排序 算法 是 一 种 分 治 排序 算法 。 它 将 数组 划分 为 两 个 部 分 ， 然 后 分 别 对 两 个 部 分 进 
行 排序 。 我 们 将 看 到 ， 划 分 的 准确 位 置 取决 于 输入 文件 中 元 素 的 初始 位 置 。 关 键 在 于 划分 过 
程 ， 它 重 排 数 组 ， 使 得 以 下 三 个 条 件 成 立 : 

。 对 于 某 个 1，a[i] 在 数组 的 最 终 位 置 上 。 

。a[1]，…，a[i-1] 中 的 元 素 都 比 a[i] 小 。 

。a[i+1] ，…，a[r] 中 的 元 素 都 比 a[i] 大 。 | 

我 们 通过 划分 来 完成 排序 ， 然 后 递归 地 应 用 该 方法 处 理子 文件 ， 如 图 7-1 所 示 。 因 为 划分 
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的 过 程 至 少将 一 个 元 素 放 到 它 最 终 所 在 的 位 置 ， 不 难 用 归纳 法 证 明 递归 排序 是 一 种 正确 的 排 
序 方法 。 程 序 7.1 是 实现 这 个 想法 的 递归 程序 。 


程序 7.1 快速 排序 
如 果 数 组 中 有 一 个 或 者 更 少 的 元 素 ， 就 什么 也 不 做 。 否 则 ， 数 组 先 经 过 一 个 划分 例 程 
( 见 程序 7.2) ， 它 将 a[i] 放 在 1 和 r 之 间 的 某 个 位 置 t 上 ， 然 后 对 数组 元 素 重 排 ， 递 归 调 用 该 过 程 
完成 排序 。 


int partition(Ttem a[], int 1, int r); 
void quicksort(Item a[], int 1, int r) 
{ int i; 
if (r <= 1) return; 
i = partition(a, 1, r); 
quicksort(a, 1, i-1); 
quicksort(a, i+1, r); 


} 
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图 7-1 快速 排序 示例 
注 ; 快速 排序 是 一 个 递归 划分 过 程 。 我 们 对 一 个 文件 进行 划分 ， 划 分 的 原则 是 将 一 些 元 素 (划分 元 素 ) 放 在 它 
们 最 终 应 该 在 的 位 置 上 ， 对 数组 进行 重 排 使 比划 分 元 素 小 的 元 素 部 在 划分 元 素 的 左边 ， 比 划分 元 吉大 的 元 
素 部 在 划分 元 素 的 右边 。 然 后 分 别 对 左右 两 部 分 分 别 递归 处 理 。 图 中 的 每 一 行 表示 划分 后 的 子 文件 中 的 内 
容 。 最 终结 果 是 一 个 全 排序 的 文件 。 


我 们 使 用 一 般 策 略 来 实现 划分 。 首 先 ， 我 们 任 选 一 个 a[r] 作 为 划分 元 素 (partition 
element) ， 这 个 元 素 在 划分 后 将 在 最 终 的 位 置 上 上。 然后， 从 数组 的 左 端 开始 扫描 ， 直 到 找到 
一 个 大 于 划分 元 素 的 元 素 ， 同 时 从 数组 的 右 端 开 始 扫描 ， 直 到 找到 一 个 小 于 划分 元 素 的 元 素 。 
使 扫描 停止 的 这 两 个 元 素 ， 显 然 在 最 终 的 划分 数组 中 的 位 置 相 反 ， 于 是 交换 这 两 个 元 素 。 继 
续 这 一 过 程 ， 我 们 就 可 以 保证 数组 中 位 于 左 侧 指针 左 侧 的 元 素 都 比划 分 元 素 小 ， 位 于 右 侧 指 
针 右 侧 的 元 素 都 比划 分 元 素 大 ， 如 下 图 所 示 。 

| 小 于 或 等 于 v ] ] 大 于 或 等 了 v1 
t t 1 t 
1 j 工 

图 中 ，v 表 示 划 分 元 素 的 值 ，i 表 示 左 侧 指针 ，j 表 示 右 侧 指针 。 从 图 中 不 难看 出 ， 左 侧 指 

针 ;i 在 遇 到 大 于 等 于 划分 元 素 的 元 素 时 停止 扫描 ， 右 侧 指针 j 在 遇 到 小 于 等 于 划分 元 素 的 元 素 
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时 停止 扫描 ， 这 一 策略 看 似 产生 了 许多 对 等 于 划分 元 素 的 元 素 的 不 必要 交换 (我 们 将 在 这 一 
节 的 后 面 解释 这 一 策略 的 原因 ) 。 当 扫描 指针 相遇 时 ， 我 们 需要 做 的 就 是 完成 划分 过 程 ， 将 
a[r] 与 右 侧 子 文件 的 最 左 端的 元 素 交换 ( 左 指针 所 指向 的 元 素 )。 程 序 7.2 是 这 样 一 个 过 程 的 
实现 ， 图 7-2 和 图 7-3 都 描述 了 这 个 例子 。 
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图 7-2 快速 划分 


注 : 快速 排序 划分 从 选择 划分 元 素 开 始 。 程 序 7.2 选 择 最 右边 的 元 素 己 作为 划分 元 素 。 然 后 从 左 扫 描 那 些小 的 元 素 ， 
从 右 扫描 那些 大 的 元 素 ， 交 换 那 些 使 扫描 停止 的 元 素 ， 反 复 进 行 这 样 的 过 程 直 到 两 个 指针 相 届 。 首 先 我 们 从 
左边 开始 扫描 ， 在 S 处 停止 ， 接 着 从 右边 开始 扫描 ， 在 A 处 停止 ， 然 后 交接 S 和 A。 然 后 ， 继续 从 左 侧 扫描 ， 
在 DO 处 停止 ， 再 从 右 扫 描 ， 在 已 处 停止 ， 然 后 交换 O 和 已 。 其 后 扫描 指针 相遇 ;继续 从 左 向 右 扫描 ， 在 R 处 停 
止 ， 再 从 右 继 续 扫描 (经 过 RR) 直到 到 达 元 素 孔 。 交 接 R 和 划分 元 素 已 〈 最 右边 的 ) ， 至 此 ， 划 分 过 程 结 束 。 






































图 7-3 快速 排序 划分 过 程 的 动态 性 质 


注 : 划分 过 程 将 一 个 文件 分 成 两 个 子 文件 ， 这 两 个 子 文件 可 以 分 别 独立 地 排序 。 扫 描 指 针 左 侧 没 有 元 素 比划 分 
元 素 大 ， 所 以 左上 方 没有 点 ; 因为 扫描 指针 右 侧 没 有 元 素 比 划分 元 素 小 ， 所 以 右 下 方 没有 点 。 从 这 两 个 例 
子 中 可 以 看 出 ， 划 分 过 程 将 一 个 随机 顺序 的 数组 划分 为 两 个 较 小 的 随机 顺序 的 数组 ， 同 时 一 个 元 素 (划分 
元 素 ) 位 于 对 角 线 上 。 





变量 v 保 存 了 划分 元 素 a[r] 所 在 的 位 置 ， ;和 j 分 别 是 左 扫 并 指针 和 右 扫 搞 指 针 。 划分 循环 
使 得 i 增 加 j 减 小 ，whi le 循环 保持 一 个 不 变 的 性 质 i 左 侧 没有 元 素 比 v 大 ，j 右 侧 没 有 元 素 比 
v 小 。 一 旦 两 个 指针 相遇 ， 我 们 就 交换 a[i] 和 a[r]， 即 将 v 赋 给 afi]， 这 样 v 左 侧 的 元 素 都 小 
于 等 于 v，v 右 侧 的 元 素 都 大 于 等 于 v， 结 束 了 划分 过 程 。 
划分 循环 是 一 个 不 确定 的 循环 ， 当 两 个 指针 相遇 时 ， 就 通过 break 语 名 结束。 测试 j ==1 
用 来 防止 划分 元 素 是 文件 中 的 最 小 元 素 。 
int partition(Item a[], int 1, int r) 
{ int i = 1-1, j = r; Item v = arr]; 
for (;;) 
{ 
while (less(af++i] v)) ; 
while (less(v, a[--j])) if (j == 1) break; 
if (i >= j) break; 
exch(a[i], a[j]); 





} 
exch(a[i], a[r]); 
return i; 


} 


快速 排序 算法 的 内 部 循环 增加 了 一 个 指针 并 将 数组 中 元 素 与 某 个 固定 值 比较 。 这 一 简化 
操作 加 速 了 快速 排序 算法 : 在 排序 算 靶 中 很 难 找到 一 个 更 小 的 内 部 循环 。 

程序 7.2 中 增加 了 对 划分 元 素 是 否 数组 最 小 元 素 的 测试 以 停止 扫描 。 其 实 可 以 使 用 一 个 标 
志 来 避免 这 样 的 检测 : 快速 排序 算法 的 内 部 循环 很 小 ， 这 样 一 个 多 余 的 检测 可 能 会 对 性 能 带 
来 影响 。 在 这 一 实现 过 程 中 当 划 分 元 素 是 数组 中 最 大 元 素 时 标志 没有 用 ， 因 为 划分 元 素 本 身 
在 停止 扫描 时 就 位 于 数组 的 最 右 端 。 本 节 的 后 面 还 会 介绍 划分 过 程 的 另 一 个 实现 。 在 本 章 的 
其 他 地 方 我 们 在 遇 到 划分 元 素 时 并 不 停止 扫描 ， 我 们 可 能 在 这 样 的 实现 中 增加 一 个 是 否 到 达 
数组 最 右 端 的 测试 。 另 一 方面 ， 在 7.5 节 讨论 的 快速 排序 算法 的 改进 方案 中 既 没 必要 检测 也 不 
需要 在 两 端 增加 标志 

划分 过 程 是 不 稳定 的 ， 因为 每 个 元 素 都 有 可 能 在 交换 时 被 移 到 大 量 与 它 相 等 的 元 素 (未 
经 检测 ) 后 面 。 至 今 还 没有 使 基于 数组 的 快速 排序 算法 稳定 的 方法 。 

划分 过 程 的 实现 很 重要 。 保 证 递归 程序 终止 的 最 直接 的 方法 就 是 ，(i) 不 对 大 小 小 于 等 于 1 
的 文件 进行 递归 调用 ，(i) 只 对 比 给 定 输入 小 的 文件 递归 调用 。 这 两 个 策略 很 明显 ， 但 使 人 容 
易 朴 忽 输入 数据 的 特征 而 造成 大 的 错误 。 例 如 ， 在 实现 快速 排序 中 的 一 个 普遍 错误 是 不 能 保 
证 一 个 元 素 总 是 被 放 在 它 应 该 所 在 的 位 置 ， 当 划分 元 素 为 最 大 元 素 或 最 小 元 素 时 ， 会 使 递归 
陷入 无 限 递归 过 程 。 

当 文 件 中 有 相同 的 元 素 时 ， 指 针 相 遇 就 复杂 一 些 。 我 们 在 ji 结束 扫描 后 ， 使 用 j 代 替 1-1 
来 确定 第 一 次 递归 调用 的 左 侧 文件 的 右边 ， 来 改进 划分 的 过 程 。 这 种 情况 使 循环 迭代 增加 了 
一 次 ， 但 改进 了 程序 ， 这 是 因为 无 论 扫 描 循 环 以 j 结 束 还 是 以 1 结束， 都 指向 同一 元 素 ， 我 们 
使 两 个 元 素 都 位 于 它们 的 最 终 位 置 上 : 结束 两 个 扫描 的 元 素 ， 必 定 是 与 划分 元 素 相 等 的 元 素 ， 
以 及 划分 元 素 自 身 。 这 种 情况 可 能 发 生 , 例如 在 图 7-2 中 ， 如果 R 是 E。 这 一 改变 可 能 是 值得 的 ， 
因为 在 特殊 情况 下 ， 程 序 中 给 出 的 输入 文件 中 最 右边 的 元 素 是 最 小 的 ， 这 样 第 一 步 递 归 调 用 
quicksort(a，i+1，r) 就 相当 于 不 执行 〈 退 化 ) 。 程 序 7.2 中 的 划分 实现 更 容易 理解 ， 然 而 ， 
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我 们 认为 它 是 一 种 基本 的 快速 排序 划分 过 程 。 如 果 输 入 文件 中 有 大 量 的 重复 元 素 ， 就 会 有 一 
些 其 他 因素 影响 算法 。 我 们 接 下 来 将 考虑 这 些 因素 。 、 

我 们 对 与 划分 元 素 相 等 的 元 素 可 以 采用 三 种 基本 的 策略 来 处 理 ， 两 个 扫描 指针 遇 到 它 时 
都 停止 (如 程序 7.2) ， 只 有 一 个 指针 停止 ， 另 一 个 指针 扫描 ， 或 者 两 个 指针 都 扫描 。 在 这 
些 策略 中 哪个 策略 是 最 好 的 已 经 在 数学 上 经 过 仔细 研究 ， 结 果 表 明 两 个 指针 都 停止 的 策略 是 
最 好 的 ， 这 是 因为 这 一 策略 对 有 多 个 重复 元 素 的 文件 ， 可 以 平衡 划分 。 而 另外 两 种 策略 对 于 
某 些 文件 可 能 导致 极度 不 平衡 的 划分 。 我 们 将 在 7.6 节 讨论 更 复杂 、 更 高 效 的 处 理 重复 元 素 
的 方法 。 

根本 上 说 ， 排 序 算法 的 效率 取决 于 对 文件 的 划分 结果 ， 而 这 个 结果 又 依赖 于 划分 元 素 的 
值 。 图 7-3 显 示 了 划分 过 程 把 一 个 大 的 顺序 随机 文件 划分 为 两 个 较 小 的 顺序 随机 文件 ， 但 实际 
的 分 割 却 可 能 在 文件 中 的 任何 位 置 。 我 们 希望 选择 的 元 素 位 于 文件 的 中 间 ， 但 我 们 却 没 有 这 
方面 的 信息 来 保证 这 样 的 性 质 。 如 果 文 件 的 顺序 是 随机 的 ， 那 么 选择 a[r] 作 为 划分 元 素 和 选 
择 文件 中 任意 位 置 的 元 素 的 效果 是 一 样 的 ， 平 均 而 言 会 在 中 间 分 割 。 在 7.5 节 中 ， 我 们 通过 分 
析 来 考虑 划分 元 素 的 选择 ， 这 样 会 使 算法 更 高 效 。 
练习 
>7.1 按 前 面 例子 的 风格 ， 给 出 快速 排序 算法 应 用 于 文件 内 容 为 BASYQUESTION 每 一 
步 的 排序 结果 。 

7.2 给 出 文件 1001110000010100 是 如 何 划分 的 ， 分 别 使 用 程序 7.2 和 前 面 正 文中 建 
议 的 修改 。 

7.3 实现 一 个 不 含 break 语 句 和 goto 语 句 的 划分 算法 。 

。7.4 为 链表 实现 一 个 稳定 的 快速 排序 算法 。 

07.5 对 于 N 个 元 素 的 文件 ， 给 出 快速 排序 算法 执行 过 程 中 最 大 元 素 被 移动 的 最 大 次 数 。 


7.2 快速 排序 算法 的 性 能 特征 


尽管 基本 的 快速 排序 算法 已 经 很 有 用 处 ， 但 它 对 于 在 实际 中 可 能 出 现 的 某 些 文件 极其 低 
效 。 例 如 ， 如 果 它 调用 一 个 大 小 为 N 的 有 序 文件 ， 那 么 所 有 的 划分 将 会 退化 ， 程 序 会 调用 自身 
N 次 ， 每 次 调用 减少 一 个 元 素 。 

性 质 7.1 快速 排序 最 坏 情况 下 使 用 大 约 N2/2 次 比较 。 

根据 上 面 的 论述 ， 对 于 一 个 已 有 序 的 文件 的 比较 次 数 为 ， 

N+(V-UD+(CV-2)+…+2+1=(NHDNM2 

所 有 划分 对 于 逆序 文件 以 及 实际 中 不 太 可 能 出 现 的 其 他 类 型 的 文件 都 是 退化 的 ( 见 练 习 
7.6)。 四 

这 种 行为 表明 快速 排序 所 需要 的 时 间 约 为 NV/2， 而 且 处 理 递 归 过 程 所 要 求 的 空间 约 为 N 
( 见 7.3 节 )， 这 些 对 于 大 型 文件 是 不 可 接受 的 。 幸 运 的 是 ， 还 有 一 些 相 对 简单 的 方法 可 以 降低 
在 实际 的 应 用 中 发 生 这 种 最 坏 情 况 的 可 能 性 。 

快速 排序 算法 的 最 好 情况 是 每 次 划分 过 程 都 恰好 把 文件 分 割 成 两 个 大 小 完全 相等 的 部 分 。 
这 一 情况 使 得 快速 排序 算法 的 比较 次 数 满 足 分 治 算法 : 

Cyv=2Cwm+N 

2Cw? 是 对 两 个 子 文件 排序 所 需要 的 时 间 ，N 是 使 用 分 割 指针 来 检查 每 个 元 素 需 要 的 时 间 。 

由 第 5$ 章 可 得 ， 我 们 知道 这 个 递归 方程 的 解 为 : 
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Cy=NlgN 
尽管 情况 不 一 定 总 是 这 样 好 ， 但 平均 而 言 每 次 划分 的 位 置 都 在 中 间 。 如 果 考 虑 各 种 可 能 
的 划分 位 置 ， 那 么 递归 方程 会 更 加 复杂 ， 更 难 求解 ， 但 最 终结 果 是 类 似 的 。 
性 质 7.2 快速 排序 平均 情况 下 使 用 大 约 2N lg N 次 比较 。 
对 于 随机 上 顺序 的 N 个 不 同 元 素 ， 使 用 快速 排序 算法 ， 比 较 次 数 的 递归 方程 为 
Cv=N+1+LNZv(C + Cy) N>2 
其 中 C = Co = 0。 项 N+1 表 示 划 分 元 素 与 其 他 元 素 比较 的 时 间 (指针 相遇 时 多 比较 两 次 ) ， 每 
个 元 素 k 以 概率 1 成 为 划分 元 素 ， 划 分 之 后 两 个 随机 文件 的 大 小 分 别 为 k 一 1 和 N- 上 ， 这 些 作 序 
的 时 间 为 上 式 中 的 其 余 项 。 
尽管 看 起 来 相当 复杂 ， 这 个 递归 方程 实际 上 是 易于 求解 的 ， 分 三 步 进行 。 首 先 ，Co + Ci 
++Cwi= Cw-1+ Cw-2+…+ Co， 因 而 可 得 
Cy=N+1+2N KerenCe 
其 次 ， 我 们 可 以 将 等 式 两 迪 同 乘 N， 并 把 N 换 成 N 一 1， 使 得 两 式 相 减 ， 可 得 
NCy — (N—DCwv 1 = NN + 1)— (N-DN+2Cv ， 
化 简 得 : 
NCw= (N+ LCy 1 +2NN>3 
最 后 ， 两 边 除 以 N(N + 1)， 给 出 递归 公式 ， 
C, Cr 2 
三 一 一 一 十 一 一 一 
N+l N N+l 
Cs, 2 2 
二 一 十 


N-lI N N+l 








C, 2 
三 一 一 十 一 -一 
3 之 


这 个 式 子 的 解 近 似 地 等 于 一 个 求 和 ， 它 可 用 积分 来 近似 ( 见 2.3 节 ): 

Cy 1 or lg, 

rr 2 ~ax -2InN : 

这 毕 含 着 结论 成 立 。 因 为 2Vln N = 1.39N lg N， 因 而 平均 比较 次 数 大 约 比 最 好 情况 高 39% 。 转 
上 面 的 分 析 是 在 假定 待 排序 的 文件 由 键 值 不 同 且 顺序 随机 的 记录 组 成 的 情况 下 进行 的 ， 

但 程序 7.1 和 程序 7.2 的 实现 在 元 素 值 不 是 完全 不 同 以 及 顺序 不 完全 随机 的 一 些 情 况 下 ， 执 行 的 

速度 变 慢 ， 如 图 7-4 所 示 。 如 果 要 大 量 使 用 排序 算法 ， 或 者 使 用 它 对 大 型 文件 排序 (特别 是 ， 

当 它 用 做 通用 的 库 例 程 时 ， 所 要 排序 的 文件 特征 未 知 ) ， 那 么 我 们 需要 在 7.5 节 和 7.6 节 讨论 集 

中 改进 的 版 本 ， 使 得 它 在 实际 应 用 中 减少 最 坏 情 况 出 现 的 概率 ， 同 时 还 会 降低 20% 的 平均 运 

行 时 间 。 
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图 7-4 ”处理 不 同类 型 文件 时 快速 排序 算法 的 动态 特性 


注 : 在 快速 排序 算法 中 随机 选择 划分 元 素 对 于 不 同类 型 的 文件 结果 礁 然 不 同 。 这 些 图 说 明 元 素 的 初始 位 置 分 别 
是 随机 的 ， 满 足 高 斯 分 布 和 的、 几乎 有 序 的 、 几 乎 逆序 的 和 只 有 10 个 不 同 的 值 的 随机 顺序 的 文件 的 结果 (从 
左 到 右 )， 对 于 小 的 子 文件 使 用 相对 较 大 的 值 来 终止 。 不 和 参与 划分 的 元 素 在 接近 对 角 线 的 地 方 结束 ， 剩 下 的 
数组 可 以 用 袖 入 排序 来 解决 。 几 乎 有 序 的 文件 需要 过 多 的 划分 操作 。 
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练习 

7.6 给 出 六 个 由 10 个 元 素 组 成 的 文件 ， 使 得 快速 排序 算法 (程序 7.1) 在 应 用 时 所 需要 比较 的 
次 数 和 最 坏 情况 ( 即 所 有 元 素 都 已 经 排 好 序 ) 一 样 。 | 

7.7 ”编写 一 个 程序 来 计算 Cs 的 值 ， 在 N = 10  ，10' 和 和 10 时， 比较 它 的 精确 值 和 近似 值 2V In N。 
57.8 如 果 待 排序 文件 由 N 个 相等 的 元 素 组 成 ， 那 么 快速 排序 算法 〈 程 序 7.1) 将 进行 多 少 次 比 
较 操 作 。 

7.9 如 果 待 排序 文件 由 N 个 元 素 组 成 ， 但 N 个 元 素 中 只 有 两 个 不 同 的 值 (x 个 元 素 是 同一 个 值 ， 
另外 N 一 k 个 元 素 是 另 一 个 值 );， 那 么 快速 排序 算法 (程序 7.1) 将 进行 多 少 次 比较 操作 ? 

“7.10 编写 一 个 程序 来 为 快速 排序 算法 产生 最 好 情况 时 的 文件 ， 即 一 个 由 入 个 完全 不 同 的 元 素 
组 成 的 文件 ， 而 且 每 次 划分 操作 时 会 产生 两 个 大 小 最 多 差 1 的 子 文件 。 


7.3 栈 大 小 


如 同 我 们 在 第 3 章 所 做 的 那样 ， 在 快速 排序 算法 中 使 用 一 个 下 推 栈 ， 假 设 栈 中 包含 了 待 排 
序 的 子 文件 的 内 容 。 每 当 我 们 需要 对 一 个 子 文件 排序 时 ， 我 们 就 从 栈 中 弹出 一 个 子 文件 。 在 
划分 结束 时 ， 我 们 会 产生 两 个 待 排序 的 子 文件 ， 此 时 将 这 两 个 子 文件 压 人 栈 中 。 在 程序 7.1 中 
递归 实现 的 部 分 ， 系 统 用 栈 来 保存 这 类 信息 。 

对 于 一 个 随机 文件 ， 栈 的 最 大 规模 与 log N 成 正比 〈 见 第 三 部 分 参考 文献 )， 但 对 于 退化 的 
情况 ， 栈 的 大 小 可 能 增长 到 与 N 成 正比 ， 如 图 7-5 所 示 。 实 际 上 ， 最 坏 情 况 是 文件 已 经 是 有 序 
的 。 如 果 递 归 实 现 快速 排序 ， 栈 的 增长 与 源 文件 大 小 成 正比 的 可 能 性 是 一 个 复杂 而 又 真正 的 
难题 : 总 是 存在 一 个 基本 栈 ， 在 处 理 大 型 文件 出 现 退 化 时 ， 可 能 由 于 缺乏 内 存 空 间 ， 引 起 程 
序 异常 中 止 。 这 是 一 个 库 排 序 例 程 所 不 希望 看 到 的 (事实 上 ， 我 们 会 在 运行 空间 溢出 之 前 运 
行 时 间 溢 出 )。 对 于 这 种 行为 很 难保 证 不 会 出 现 ， 但 我 们 在 7.5 节 将 会 看 到 ， 要 提供 一 种 使 这 
种 退化 情况 几乎 不 出 现 的 策略 并 不 太 难 。 


图 7-5 快速 排序 的 栈 大 小 


注 : 对 于 随机 文件 ， 快 速 排 序 的 递归 栈 增 长 不 大 ， 但 对 于 进化 文件 可 能 需要 过 多 空间 。 两 个 随机 文件 (左边 ， 
中 间 )、 以 及 部 分 有 序 的 文件 (右边) 的 栈 的 大 小 在 图 中 绘 出 。 
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程序 7.3 是 一 种 解决 这 个 问题 的 非 递 归 实 现 ， 它 检查 两 个 文件 的 大 小 ， 然 后 先 把 较 大 者 压 
入 栈 中 。 图 7-6 描 绘 了 这 一 策略 。 与 图 7-1 中 的 例子 比较 ， 我 们 会 看 到 子 文件 并 没有 因为 这 一 策 
略 而 改变 ， 只 是 它们 处 理 的 顺序 发 生 了 变化 。 因 此 ， 我 们 节省 了 空间 但 时 间 开 销 却 没 有 受到 
影响 。 





Tn ”程序 7.3“ 非 遂 扫 快 台 排序 i 

快速 排序 的 非 迷 归 实现 ( 见 第 5 章 ) 使 用 了 一 个 显 式 的 下 推 模 ， 使 用 向 模 中 故人 参数 和 
过 程 调用 /退出 不 断 地 从 栈 中 弹出 参数 来 替代 递归 调用 ， 这 个 过 程 继续 直到 栈 为 空 。 我 们 把 两 
个 子 文件 中 的 较 大 者 压 信 栈 中 来 确保 最 大 栈 的 深度 为 ls N， 如 果 对 N 个 元 素 进行 排序 〈 见 性 
质 73)。 


#define push2(A, B) push(B); push(A); 
void quicksort(Item a[], int 1, int r) 
{ int i; 
stackinit(); push2(1, r); 
while (!stackempty()) 
{ 
1 = pop(); r = pop(); 
if (r <= 1) continue; 
i = partition(a, 1, r); 
if (i-l > r-i) 
{ push2(], i-1); push2(i+1, r); } 
else 
{ push2(i+1, r); push2(1, i-1); } 
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图 7-6 快速 排序 示例 (首先 对 较 小 子 文件 排序 ) 
注 : 子 文件 处 理 的 次 序 并 不 影响 快速 排序 的 正确 操作 和 所 花 党 的 时 间 ， 但 可 能 影响 递归 结构 中 基本 下 推 栈 的 大 
小 。 这 里 划分 之 后 优先 处 理 较 小 的 子 文件 。 

把 较 大 的 子 文件 压 入 栈 中 的 策略 保证 了 栈 中 的 每 个 元 素 不 会 超过 它 下 面 元 素 大 小 的 一 半 ， 
因而 栈 只 需要 容纳 大 约 lg N 个 元 素 的 空间 。 这 个 最 大 栈 空 间 的 使 用 在 划分 总 是 落 入 文件 的 中 间 
时 出 现 。 对 于 随机 文件 ， 实 际 最 大 栈 的 大 小 要 小 得 多 ， 对 于 退化 文件 栈 的 大 小 可 能 就 更 小 了 

性 质 7.3 ”如果 两 个 子 文件 的 较 小 者 首先 是 排 好 序 的 ， 那 么 在 使 用 快速 排序 对 NN 个 元 康 进 
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行 排序 时 ， 栈 中 元 素 不 会 超过 18 N 个 。 

最 坏 情况 下 栈 的 大 小 必定 小 于 Tv ，7y 满足 递归 方程 Tv = Tyo + 1， 且 Ti = 7o = 0。 这 个 
递归 方程 是 第 5 章 所 讨论 的 一 种 标准 的 方程 见 练习 7.13) 。 加 

这 项 技术 并 不 需要 真正 递归 实现 ， 因 为 它 取决 于 是 否 能 够 消除 尾 递归 。 如 果 过 程 的 最 后 
一 步 是 去 调用 另 一 个 过 程 ， 某 些 程序 设计 环境 会 做 出 安排 ， 在 调用 过 程 之 前 ， 先 清除 栈 中 的 
局 部 变量 。 如 果 没 有 消除 尾 递归 ， 就 不 能 保证 快速 排序 有 较 小 的 栈 大 小 。 例 如 ， 调 用 有 序 且 
大 小 为 N 的 文件 的 快速 排序 会 导致 对 大 小 为 N-1 的 文件 的 调用 ， 接 着 会 导致 对 大 小 为 N-2 的 文 
件 的 调用 ， 等 等 ， 最 终 导致 栈 的 深度 与 N 成 正比 。 这 一 观察 表明 ， 使 用 非 递归 实现 来 保证 栈 大 
小 的 过 快 增长 。 另 一 方面 ， 某 些 C 编 译 器 会 自动 消除 尾 递归 ， 而 且 很 多 机 器 的 硬件 直接 支持 函 
数 调用 ， 在 这 样 的 环境 中 ， 非 递归 程序 7.3 的 实现 实际 上 可 能 要 比 递归 程序 7.1 的 实现 要 慢 。 

图 7-7 进 一 步 说 明了 非 递归 方法 处 理 同样 的 子 文件 (按照 不 同 顺 序 ) 就 像 递归 方法 处 理 任 
何 文件 一 样 。 它 表明 划分 元 素 在 根 节点 的 树 结构 ， 树 的 左右 孩子 分 别 对 应 左 子 文件 和 右 子 文 
件 。 使 用 快速 排序 的 递归 实现 对 应 前 序 访问 这 棵 树 中 的 节点 ， 非 递归 实现 对 应 访问 较 小 子 树 
优先 遍历 的 规则 。 





图 7-7 快速 排序 划分 树 


注 ， 如 果 我 们 修改 图 7-1 和 图 7-6 中 的 划分 图 ， 将 每 个 划分 元 素 与 它 两 个 于 文件 的 划分 元 素 相 连 ， 就 得 到 划分 过 
程 的 静态 表示 (两 种 情况 下 ) 。 在 这 棵 二 又 树 中 ， 每 个 子 文件 由 它 的 划分 元 素 表示 ( 知 果 大 小 为 1， 则 由 自 
身 表示 ) ， 每 个 节点 的 子 树 还 是 树 ， 表 示 划 分 后 的 子 文 件 。 为 简明 起 见 ， 尽 管 算法 的 递归 版 本 在 划分 元 素 是 
文件 中 的 最 小 元 素 或 最 大 元 素 时 ， 对 于 r 《< 1 的 确 进行 了 北 归 调用 ， 这 里 还 是 没有 显示 出 空 的 子 文 件 。 树 
自身 与 子 文件 划分 的 次 序 无 关 。 快 速 排序 的 递归 实现 相当 于 前 序 访问 树 中 的 节点 ， 快 速 排序 的 非 递归 实现 
相当 于 优先 访问 较 小 子 树 。 
当 我 们 像 程 序 7.3 那 样 使 用 一 个 显 式 栈 时 ， 我 们 就 避免 了 某 些 递归 实现 中 隐 含 的 开销 ， 然 
而 现代 的 程序 设计 系统 对 于 这 样 简单 的 程序 并 不 会 导致 大 大 的 开销 。 程 序 7.3 可 以 进一步 改进 。 
例如 ， 它 把 两 个 子 文件 压 入 栈 中 ,直接 把 栈 顶 的 子 文 件 弹出 ， 我 们 可 以 把 它 直 接 变 成 设置 变 
量 1 和 r。 同 时 ， 在 子 文件 从 栈 中 弹出 时 ， 执 行 对 r “= 1 的 测试 ， 尽 管 不 把 这 些 子 文件 压 人 栈 
中 效率 会 更 高 ( 见 练习 7.14) 。 这 种 情况 看 似 意义 不 大 ， 但 快速 排序 的 递归 性 质 实际 上 保证 了 
在 排序 过 程 中 一 部 分 的 子 文件 的 大 小 为 0 或 1。 下 面 我 们 考察 对 快速 排序 的 一 种 重要 的 改进 ， 
通过 扩展 这 种 思想 可 以 获得 较 高 的 效率 ， 它 是 用 一 种 更 加 高 效 的 方式 处 理 所 有 较 小 的 子 文件 。 
练习 
>7.11 使 用 程序 7.3 对 如 下 关键 字 的 文件 进行 排序 : 
EASYQUESTION 
按照 图 5-5 的 样子 ， 给 出 每 一 对 push 和 pop 操 作 完 成 之 后 ， 栈 中 的 内 容 。 
>7.12 ” 当 每 次 先 压 入 右边 子 文件 ， 然 后 再 压 入 左边 的 子 文件 时 (就 像 递归 实现 中 的 情况 )。 回 
答 练习 7.11 中 的 问题 。 
7.13 ”使 用 归纳 法 证 明 性 质 7.3。 
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7.14 ”修改 程序 7.3， 使 其 不 将 r <= 1 的 子 文件 压 入 栈 中 。 

>7.15 给 出 N= 2" 时 程序 7.3 所 需要 的 栈 的 最 大 大 小 。 

7.16 给 出 N= 2 一 1 和 N= 2”+ 1 时 程序 7.3 所 需要 的 栈 的 最 大 大 小 。 

07.17 ”在 快速 排序 算法 非 递归 的 实现 中 ， 可 以 使 用 队列 替代 栈 吗 ? 解释 你 的 答案 。 

7.18 确定 并 报告 你 的 程序 设计 环境 是 否 实现 了 尾 递 归 消除 。 

“7.19 对 于 N 个 元 素 的 随机 文件 ，N = 10;，10，105 和 105， 实 际 运行 来 确定 基本 递归 快速 排 
序 算 法 所 使 用 的 平均 栈 的 大 小 。 

7.20 使 用 快速 排序 对 N 个 元 素 的 随机 文件 排序 ， 求 出 大 小 分 别 为 0，1，2 的 子 文件 的 平均 
数目 。 


7.4 小 的 子 文件 


通过 观察 可 见 ， 递 归程 序 调用 自身 的 许多 小 的 子 文件 ， 因 而 在 遇 到 小 的 子 文件 时 尽 可 能 
使 用 好 的 方法 ， 来 对 快速 排序 进行 改进 。 一 种 显然 的 方法 就 是 将 递归 程序 开始 前 的 测试 ， 由 
return 改 为 调用 插入 排序 ， 如 下 : 

if (fr-1 “= M) insertion(a, 1, r); 

M 是 某 个 参数 , 其 精确 值 与 实现 有 关 。 我 们 可 以 通过 分 析 或 者 实验 研究 来 确定 M 的 最 佳 值 。 
研究 表明 ， 如 果 M 取 值 范围 从 5 至 25， 运 行 时 间 变 化 不 大 。M 在 此 范围 内 运行 时 间 的 数量 级 要 
比 M=1 时 的 运行 时 间 少 10% ( 见 图 7-8)。 


+ 


M=9 


图 7-8 小 的 子 文件 的 立 值 
注 : 选择 小 的 子 文 件 的 最 优 阅 值 可 以 导致 平均 运行 时 间 约 10% 的 改进 。 精 确 地 选择 该 值 不 是 关键 ;选择 范围 在 5 
至 20 内 的 值 在 多 数 实现 中 都 高 效 。 粗 线 (上 图 ) 是 通过 实验 得 出 的 ; 细 线 (下 图 ) 是 通过 分 析 得 出 的 。 

一 种 比 调用 插入 排序 更 高 效 的 解决 这 类 小 的 子 文件 的 方法 ， 就 是 将 开始 的 测试 改变 为 

if (r-l1 <= M) return; 
也 就 是 说 ， 在 划分 过 程 中 简单 地 忽略 小 的 子 文件 。 在 一 个 非 递 归 实 现 中 ， 就 是 不 把 小 于 M 的 
文件 压 人 栈 中 ， 或 者 说 ， 忽 略 栈 中 找到 的 所 有 小 于 MM 的 文件 。 划 分 之 后 ， 所 剩 下 的 是 几乎 有 
序 的 文件 。 如 在 6.5 节 中 所 讨论 的 ， 插 入 排序 是 这 类 文件 所 选 的 方法 。 即 ， 插 入 排序 运行 这 类 
文件 几乎 和 直接 将 这 些小 文件 合并 差不多 。 这 一 方法 使 用 时 要 注意 ， 因 为 快速 排序 有 错误 时 
会 导致 插入 排序 不 再 起 作用 。 如 果 出 现 错误 情况 ， 就 只 能 多 做 一 些 额 外 的 工作 。 

图 7-9 说 明 对 大 文件 执行 这 一 过 程 的 情况 。 即 使 在 子 文件 的 阅 值 相对 较 大 时 ， 快 速 排序 部 
分 运行 得 也 很 快 ， 因 为 只 有 极 少数 文件 执行 了 划分 操作 。 揪 和 排序 部 分 执行 得 也 很 快 ， 因 为 
它 操 作 的 对 象 是 几乎 有 序 的 文件 。 

无 论 何 时 我 们 处 理 一 个 递归 算法 ， 这 一 技术 都 会 带 来 很 多 好 处 。 这 是 因为 其 本 质 所 在 ， 
我 们 可 以 确信 所 有 递归 算法 在 执行 小 的 问题 实例 时 占据 时 间 的 较 大 部 分 ， 我 们 通常 对 算法 中 
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那些 小 的 部 分 采用 低 开销 的 蛮 力 算法 ， 因 而 采用 一 些 混合 算法 可 以 改进 算法 的 总 运行 时 间 。 
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注 : 快速 排序 子 文件 是 独立 处 理 的 。 这 张 图 显示 了 阅 值 为 15 或 更 小 时 对 200 个 元 素 的 文件 排序 时 ， 划 分 得 到 的 
子 文件 的 情况 。 我 们 数 出 那些 坚 直 的 线 ， 就 可 以 计算 出 比较 操作 的 次 数 。 在 这 个 例子 中 ， 数 组 中 的 每 个 位 
置 在 排序 中 大 约 参与 了 6~7 个 子 文件 。 
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练习 

7.21 如 果 在 快速 排序 内 直接 调用 揪 入 排序 ， 需 要 设置 观察 哨 吗 ? 

7.22 改进 程序 7.1， 给 出 划分 文件 大 小 为 10 ，100 和 1000 时 ， 比 较 操 作 所 占 的 比例 ， 并 输出 
对 N 个 元 素 的 随机 文件 进行 排序 时 的 比例 ，N = 10:，104，105 和 105。 

7.23 ”实现 带 有 闪 值 的 递归 排序 ， 处 理 小 的 子 文 件 用 播 入 排序 ， 值 小 于 M， 对 和 N 个 元 素 的 随 
机 文件 排序 ， 通 过 实验 确定 程序 7.4 中 运行 最 快 的 M 值 ，N = 10;，104，105 和 和 105。 
7.24 ”实现 带 有 阔 值 的 非 递归 排序 ， 求 解 练习 7.23。 

7.25 当 待 排序 的 记录 中 包含 一 个 键 值 和 指向 其 他 信息 的 指针 b 时 (但 不 使 用 指针 排序 ) ， 求 
解 练 习 7.23 。 

。*7.26 ”编写 一 个 输出 直方 图 的 程序 ( 见 程序 3.7) : 假定 文件 大 小 为 N， 六 值 为 M， 运 行 快速 排 
序 算法 时 ， 水 于 阅 值 的 子 文件 使 用 插入 排 序 。 训 。 对 于 M = 10，100 和 1000，N = 103，104，105 和 
10 运 行 你 的 程序 。 

7.27 在 阅 值 为 M 时 ， 对 一 个 由 XN 个 元 素 组 成 的 随机 文件 ， 通 过 实验 运行 快速 排序 算法 来 确定 
栈 的 平均 大 小 ， 其 中 M = 10，100，1000，N = 103，104，105 和 104， 


7.5 三 者 取 中 划分 


对 快速 算法 的 另 一 种 改进 就 是 使 用 一 个 尽 可 能 在 文件 中 间 划 分 的 元 素 。 这 有 几 种 可 能 性 。 
一 个 安全 的 选择 就 是 避免 最 坏 情况 ， 使 用 数组 中 的 一 个 随机 元 素 作为 划分 元 素 。 这 样 最 坏 情 
况 发 生 的 可 能 性 就 相对 很 小 。 这 种 方法 是 概率 算法 的 一 个 简单 例子 。 概 率 算法 使 用 随机 性 来 
取得 较 大 可 能 性 的 性 能 。 我 们 将 在 本 书后 面 看 到 大 量 应 用 概率 的 算法 设计 ， 这 些 算法 常常 依 
赖 输入 。 例 如 快速 排序 算法 ， 在 实际 应 用 中 你 不 可 能 用 随机 数 生成 器 来 产生 数据 供 它 使 用 : 
简单 的 随意 选择 可 能 也 是 高 效 的 。 

另 一 种 选择 划分 元 素 的 方法 ， 就 是 从 文件 中 取出 三 个 元 素 ， 使 用 三 个 元 素 的 中 间 元 素 作 
为 划分 元 素 。 取 数组 中 的 左边 元 素 、 中 间 元 素 和 右边 元 素 ， 对 这 三 个 数 排序 (可 以 利用 第 6 章 
中 的 三 交换 方法 来 排序 )， 用 a[r-1] 与 中 间 元 素 交 换 、 然 后 对 a[1+1]，…，a[r-2] 进 行 划 分 。 
这 一 改进 称 为 三 者 取 中 法 。 

三 者 取 中 法 在 以 下 几 个 方面 改进 了 快速 排序 算法 。 首 先 ， 它 使 得 最 坏 情况 在 实际 排序 中 
几乎 不 可 能 发 生 。 如 果 排 序 需要 N“* 时 间 ， 被 检测 的 三 个 元 素 中 有 两 个 必定 在 文件 的 最 大 元 素 
中 ， 或 者 在 文件 的 最 小 元 素 中 。 这 种 情况 在 大 多 数 划 分 中 都 会 出 现 。 其 次 ， 它 减少 了 划分 对 
观察 哨 的 需要 ， 因 为 在 划分 之 前 这 个 函数 被 所 考虑 的 三 个 元 素 中 的 一 个 使 用 。 最 后 ， 它 使 总 
的 平均 运行 时 间 大 约 减 少 了 5%。 

三 者 取 中 法 和 小 的 子 文 件 的 阔 值 结合 起 来 可 以 将 原始 的 递归 实现 的 快速 算法 运行 时 间 提 
高 20%~25%。 程 序 7.4 是 结合 了 这 些 改 进 方法 后 的 实现 。 


ee “程序 7.4 改进 快速 排序 

选择 第 一 个 、 中 间 和 最 后 一 个 元 素 的 中 值 作为 划分 元 素 ， 去 掉 小 的 子 文件 的 递归 调用 ， 
这 一 系列 操作 改进 了 快速 算法 。 实 现 中 取 数 组 中 第 一 个 、 中 间 和 最 后 一 个 元 素 的 中 间 元 素 作 
为 划分 元 素 (否则 将 这 些 元 素 排除 在 划分 过 程 之 外 )。 大 小 为 11 或 更 小 的 文件 在 划分 过 程 中 被 
忽略 ， 然 后 使 用 第 6 章 中 的 插入 排序 来 完成 排序 。 


#define M 10 
void quicksort(Item a[] ，int 1, int r) 
{ int i; 
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if (r-1 <= M) return; 
exch(a[(l+r)/2], ，a[r-1] ) ; 
compexch(a[1] a[r-1]); 
Compexch(a[1] , a[r]); 
compexch(a[r-1], a[r]}); 
i = partition(a, 1+1, r-1); 
quicksort(a, 1, i-1); 
quicksort(a, i+1, r); 
} 
void sort(Item a[], int 1, int r) 
t . 
quicksort(a, 1, r); 
insertion(a, 1, r); 


} 


我 们 还 可 以 消除 递归 、 用 内 媒人 代码 代替 函数 调用 、 使 用 观察 哨 等 继续 改进 程序 。 然 而 在 
现代 机 器 上 ， 这 样 的 过 程 调用 一 般 都 很 高 效 ， 它 们 并 不 在 循环 内 部 。 更 重要 的 是 ， 对 小 的 子 
文件 使 用 阀 值 已 经 代替 了 那些 可 能 造成 的 额外 开销 〈 在 内 部 循环 的 外 部 )。 使 用 带 栈 的 非 递归 
程序 实现 的 主要 原因 是 在 限制 栈 大 小 方面 给 予 保证 〈 见 图 7-10) 。 





图 7-10 改进 版 本 的 快速 排序 算法 的 栈 大 小 
注 ， 先 排序 小 的 子 文 件 保证 了 栈 的 长 度 是 最 坏 情况 的 对 数 。 这 里 显示 的 栈 大 小 对 应 的 子 文件 与 图 7-5 是 相同 的 ， 
在 先 排序 小 的 子 文 件 (左边 ) 的 基础 上 增加 了 使 用 三 个 元 素 的 中 间 元 素 (右边 ) 。 该 图 没有 给 出 运行 时 间 ， 
运行 时 间 依 赖 于 栈 中 的 文件 的 大 小 ， 而 不 是 文件 的 数目 。 例 如 ， 第 三 个 文件 (已 经 排 好 序 ) 不 需要 太 多 的 
栈 空间 ， 但 运行 时 间 却 很 长 ， 因 为 待 排序 的 子 文 件 通 常 很 大 。 
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进一步 对 算法 改进 是 可 能 的 〈 例 如 ， 我 们 可 以 使 用 5 个 或 者 更 多 元 素 的 中 间 元 素 ) ， 但 获 
得 的 时 间 收 益 对 于 随机 文件 来 说 微乎其微 。 我 们 会 意识 到 用 汇编 语言 或 机 器 语言 对 内 部 循环 
的 编码 (或 者 是 整个 程序 的 编码 ) 可 以 更 节省 时 间 。 这 些 观察 已 经 被 专家 证 明 ， 在 大 多 数 情 
况 下 对 重要 的 排序 应 用 程序 都 高 效 ( 见 第 三 部 分 参考 文献 )。 

对 于 随机 顺序 文件 ， 程 序 7.4 的 第 一 个 交换 操作 是 多 余 的 。 我 们 使 用 这 一 交换 操作 不 仅 是 
因为 它 将 对 排 好 序 的 文件 进行 优化 划分 ， 还 因为 它 保证 在 实际 应 用 中 不 会 出 现 异常 情况 ( 例 
如 ， 见 练习 7.33) 图 7-11 说 明了 对 于 大 量 不 同类 型 的 文件 ， 在 划分 时 选择 中 间 元 素 的 情况 。 
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图 7-11 对 于 不 同 的 文件 类 型 采用 三 者 取 中 法 的 快速 排序 算法 的 动态 特性 
注 : 将 快速 排序 算法 修改 为 使 用 三 者 取 中 法 使 划分 过 程 更 加 健壮 。 图 7-4 所 示 的 退化 类 型 的 文件 在 这 里 运行 得 很 
好 。 另 一 个 达到 这 一 目标 的 是 使 用 随机 的 划分 元 素 。 
使 用 三 者 取 中 法 是 一 般 意义 下 的 一 种 特殊 情况 ， 我们 对 未 知 文件 进行 采样 ， 用 样本 元 素 
的 性 质 来 估计 整个 文件 的 性 质 。 对 于 快速 排序 算法 ， 我 们 希望 通过 估计 一 个 中 间 值 来 使 划分 
平衡 。 算 法 的 这 一 特性 使 我 们 不 必要 有 一 个 很 好 的 估计 (如 果 这 样 的 估计 需要 计算 很 长 时 间 ， 
则 不 需要 进行 估计 )， 如 果 只 想 避 免 太 坏 的 估计 。 如 果 使 用 只 有 一 个 元 素 的 一 个 随机 样本 ， 那 
么 无 论 输入 是 什么 我 们 都 会 得 到 一 个 实际 上 运行 很 快 的 随机 算法 。 如 果 我 们 随机 地 从 文件 中 
选取 3 个 或 5 个 元 素 ， 然 后 使 用 样本 的 中 间 值 来 划分 ， 我 们 就 会 得 到 一 个 较 好 的 划分 ， 但 改进 
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的 时 间 被 采样 的 时 间 抵 消 了 。 

快速 排序 算法 之 所 以 得 到 了 广泛 应 用 是 因为 它 在 很 多 情况 下 都 能 运行 得 很 好 。 其 他 方法 
可 能 更 适合 解决 某 些 特定 的 情况 ， 而 快速 排序 算法 可 以 比 其 他 方法 处 理 更 多 的 排序 问题 ， 而 
且 它 通常 会 比 其 他 可 选择 的 方案 更 快 。 表 7-1 给 出 了 一 些 支持 这 一 结论 的 实验 数据 。 


表 7-1 基本 排序 算法 的 实验 研究 


对 于 大 型 随机 顺序 文件 ， 快 速 排序 程序 7.1) 比 希 尔 排序 快 两 倍 (程序 6.6) 。 使 用 对 小 的 子 文件 使 用 阔 值 法 和 
三 者 取 中 法 的 改进 算法 分 别 使 运行 时 间 较 少 了 10% (程序 7.4)。 


基本 快速 排序 采用 三 者 取 中 法 的 快速 排序 
N 希 尔 排序 一 -一 
M=0 M= 10 M=20 M=0 M=10  M=20 

12500 6 2 2 2 3 2 3 
25000 10 5 5 5 5 4 6 
50000 26 11 10 10 12 9 14 
100000 58 ， 24 22 22 25 20 28 
200000 126 53 48 50 52 44 54 
400000 278 ”116 105 110 114 97 118 
800000 616 255 231 241 252 213 258 


练习 
7.28 我们 实现 的 三 者 取 中 方法 不 能 完全 保证 采样 的 元 素 不 参与 划分 过 程 。 一 个 原因 是 它们 
可 能 作为 观察 哨 。 请 给 出 另 一 个 原因 。 

7.29 实现 一 个 快速 排序 算法 ， 算 法 在 划分 前 从 文件 随机 选择 5 个 元 素 的 中 间 元 素 作 为 划分 元 
素 。 确 信 采 样 的 元 素 不 参与 划分 ( 见 练习 7.28) 。 对 于 大 型 随机 文件 ， 比 较 你 的 算法 与 三 者 取 
中 法 的 快速 排序 算法 的 性 能 。 

7.30 在 大 型 非 随机 文件 上 运行 练习 7.29 中 你 的 程序 ， 例 如 ， 排 好 序 的 文件 、 逆 序 文件 、 或 
键 值 相等 的 文件 。 这 些 文件 的 性 能 与 随机 文件 的 性 能 有 何不 同 ? 

7.31 实现 一 个 使 用 2 熏 1 个 样本 的 快速 排序 算法 。 首 先 对 样本 进行 排序 ， 然 后 在 样本 的 中 间 
元 素 基 础 上 进行 划分 ， 接 着 将 剩余 的 两 个 样本 元 素 放 到 每 个 子 文件 中 ， 这 样 它们 可 以 在 子 文 
件 中 使 用 ， 而 不 会 再 被 排序 。 这 个 算法 称 为 样本 排序 ， 它 使 用 大 约 N lg N 次 比较 ，k 约 为 lg N 
— lglgN。 

**7.32 ”进行 实验 研究 来 确定 在 样本 排序 中 样本 个 数 的 最 佳 值 ( 见 练习 7.31), 令 N = 10;，10”, 
10 和 10。 使 用 快速 排序 和 样本 排序 对 样本 进行 排序 有 什么 区 别 吗 ? 

*7.33 ”修改 程序 7.4， 忽 略 第 一 个 交换 操作 ， 扫 描 时 忽略 与 划分 元 素 相等 的 元 素 ， 说 明 修 改 后 
的 程序 处 理 逆序 文件 时 的 运行 时 间 为 二 次 时 间 。 


7.6 重复 关键 字 


带 有 大 量 重复 排序 关键 字 值 的 文件 在 实际 应 用 中 经 常 出 现 。 例 如 ， 我 们 可 能 希望 按照 出 
生年 来 排序 一 个 人 员 信 息 文 件 ， 甚 至 用 排序 来 分 辨 性 别 。 

当 有 许多 重复 关键 字 值 出 现在 文件 中 时 ， 我 们 前 面 所 考虑 的 快速 排序 算法 的 性 能 就 变 得 
极其 低 效 。 但 对 它们 可 作 实 质 性 的 改进 。 例 如 ， 如 果 一 个 文件 完全 由 相等 的 值 (只 有 一 个 值 ) 
构成 ， 它 就 不 需要 再 进行 任何 排序 。 但 我 们 前 面 的 算法 仍然 进行 划分 直至 得 到 小 的 子 文件 ， 
无 论文 件 有 多 大 〈 见 练习 7.8) 。 在 输入 文件 中 有 大 量 重复 关键 字 值 时 ， 人 快速 排序 算法 的 递 推 


第 7 全 忌 速 苦 序 207 


特性 保证 子 文件 只 由 频繁 出 现 的 重复 关键 字 值 组 成 ， 这 是 可 以 改进 的 地 方 。 
一 个 直接 的 想法 是 将 文件 分 成 三 个 部 分 : 一 部 分 是 比划 分 元 素 小 的 ， 一 部 分 是 比划 分 元 
素 大 的 ， 还 有 一 部 分 是 等 于 划分 元 素 的 。 


[ 小 于 v | 等 了 v | 大 于 v | 
t t 1 + 
1 j i 工 
完成 这 样 的 划分 过 程 比 完成 两 路 划分 过 程 更 复杂 ， 目 前 已 经 有 很 多 方法 用 于 解决 这 一 问 
题 。Dijkstra 的 这 个 经 典 习题 作为 “荷兰 国旗 问题 ”很 流行 ， 因 为 三 种 可 能 的 范围 对 应 着 国旗 
上 的 三 种 颜色 ( 见 第 三 部 分 参考 文献 )。 对 于 快速 排序 算法 ,我们 增加 一 个 限制 一 一 扫描 一 次 
文件 就 完成 这 项 工作 ， 而 不 是 两 次 扫描 完成 。 两 次 扫描 会 使 快速 排序 算法 的 速度 慢 两 倍 ， 即 
使 完全 没有 重复 关键 字 值 。 
Bentley 和 Mecllroy 于 1993 年 发 明了 一 种 三 路 划分 方法 : 它 仅仅 将 标准 的 划分 过 程 做 如 下 改 
动 : 扫描 时 将 遇 到 的 左 子 文件 中 与 划分 元 素 相等 的 元 素 放 到 文件 的 最 左边 ， 将 遇 到 的 右边 子 
文件 与 划分 元 素 相等 的 元 素 放 到 文件 的 最 右边 。 在 划分 过 程 中 ， 我 们 保证 了 这 样 一 种 情形 : 


| 等 于 | _ 小 于 [及 | 大 于 I “等 于 电站 
t 4 1 
j 


t + 
1 p i q 工 

然后 ， 当 两 个 扫描 指针 相遇 时 ， 相 等 值 的 关键 字 的 精确 位 置 就 知道 了 ， 我 们 只 要 将 所 有 
关键 字 值 与 划分 元 素 相等 的 元 素 交 换 即 可 。 这 一 方法 不 是 十 分 满足 三 路 划分 方法 中 要 求 的 一 
遍 扫 描 的 要 求 ， 但 对 于 重复 关键 字 值 的 额外 工作 量 只 与 找到 的 重复 关键 字 值 的 个 数 成 线性 。 
这 一 事实 蕴含 着 : 第 一 ， 即 使 在 没有 重复 关键 字 值 的 情况 下 ， 该 方法 也 会 运行 得 很 好 ， 因 为 
没有 额外 的 开销 。 第 二 ， 当 只 有 常数 个 关键 字 的 值 时 ， 该 方法 为 线性 时 间 : 每 个 划分 阶段 都 
将 与 划分 元 素 值 相 等 的 值 去 掉 ， 所 以 每 个 关键 字 值 至 多 参与 的 划分 次 数 为 常数 。 

图 7-12 说 明了 三 路 划分 算法 的 一 个 例子 ， 程 序 7.5 是 基于 这 一 方法 的 快速 排序 算法 的 实现 。 
这 个 实现 只 需要 在 交换 循环 中 增加 两 个 if 语句 以 及 两 个 for 循 环 ，for 循 环 主要 是 将 与 划分 元 
素 相 等 的 元 素 放 到 应 该 在 的 位 置 来 完成 划分 。 看 起 来 在 保证 三 路 划分 上 ， 它 似乎 比 其 他 方法 
用 了 更 少 的 代码 。 更 重要 的 是 ， 它 不 仅 尽 可 能 高 效 地 处 理 重复 关键 字 值 的 文件 ， 而 且 在 没有 
重复 关键 字 值 时 它 的 额外 开销 也 很 少 。 
2 1 程序 7.5 三 路 划分 的 快速 排序 算法 0 

这 个 程序 基于 将 数组 划分 为 三 部 分 : 比划 分 元 素 小 的 元 素 (在 a[1]，…，a[j] 中 ), 与 划 
分 元 素 相 等 的 元 素 (在 a[j+1] ，…，a[i-1] 中 )， 比 划分 元 素 大 的 元 素 〈 在 a[i]，…，akr] 
中 )。 然 后 排序 算法 以 两 个 递归 调用 结束 ， 一 个 是 对 较 小 关键 字 值 的 调用 ， 另 一 个 是 对 较 大 关 
键 字 值 的 调用 。 

为 了 达到 目的 ， 程 序 把 在 左边 与 划分 元 素 相等 的 元 素 保存 在 1 到 11 的 位 置 ， 在 右边 与 划分 
元 素 相等 的 元 素 保 存在 r 到 rr 的 位 置 。 在 划分 循环 中 ， 每 当 扫 描 指针 停止 ， 则 交换 i 和 j 处 的 元 
素 ， 它 会 检查 这 两 项 是 否 等 于 划分 元 素 。 如 果 左 边 的 元 素 与 划分 元 素 相等 ， 那 么 就 将 它 交 换 
到 数组 的 左边 ， 如 果 右 边 的 元 素 与 划分 元 素 相 等 ， 就 将 它 交 换 到 数组 的 右边 。 

指针 相遇 之 后 ， 数 组 两 端 等 于 划分 元 素 的 元 素 被 交换 到 中 间 。 这 些 元 素 已 在 应 该 在 的 位 
置 ， 可 从 递归 调用 的 子 文件 中 去 除 它们 。 | 
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#define eq(A, B) (!less(A, B) && !less(B, A)) 
void quicksort(Item a[], int 1, int r) 
{ int i, j, k, p, dq; Item v; 
if (r <= 1) return; 
v= alrl; i=1-1; j=r;p=1-1;q=r; 
for (;;) 
{. 
while (less(a[++i], v)) ; 
while (less(v, a[--j])) if (j == 1) break; 
if (i >= j) break; 
exch(a[i], a[j]); 
if (eq(a[i], v)) { p++; exch(aflp], a[i]); } 
if (eq(v, a[j])) { q--; exch(a[g], a[j]); } 
} 
exch(a[i], a[r]); j = i-i; i = i+l; 
for (k=1 ; k < Pp; kt++, j--) exch(a[k], a[j]); 
for (k = r-1l; k > q; k--, i++) exch(a[k], a[il]); 
quicksort (a, 1, j); 
quicksort (a, i, r); 








} 
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图 7-12 三 路 划分 


注 ; 该 图 显示 了 把 所 有 与 划分 元 素 相 等 的 元 素 放 到 应 该 在 的 位 置 的 过 程 。 如 图 7-2 所 示 ， 我 们 从 左 开始 扫描 直至 
找到 一 个 不 小 于 划分 元 素 的 元 素 ， 从 右 开始 扫描 直至 找到 一 个 不 大 于 划分 元 素 的 元 素 ， 然 后 进行 交换 。 如 
果 左 边 的 元 素 与 划分 元 素 相 等 ， 那 么 我 们 将 它们 交换 到 数组 的 最 左边， 对 右边 做 类 似 处 理 。 当 两 个 指针 相 
遇 时 ， 我 们 和 前 面 一 样 将 划分 元 素 放 到 它 应 该 在 的 位 置 ， 热 后 交接 两 侧 所 有 与 它 的 值 相等 的 元 素 ， 使 得 它 
们 在 应 该 在 的 位 置 。 


练习 

>7.34 解释 当 一 个 顺序 随机 文件 具有 以 下 两 个 特性 时 运行 程序 7.5 会 出 现 什么 情况 : GD 只 有 两 
个 不 同 的 值 ，(iD 有 三 个 不 同 的 值 。 

7.35 ”修改 程序 7.1， 使 得 它 在 遇 到 子 文件 中 所 有 值 相 等 时 返回 。 在 有 :个 不 同 的 值 的 大 型 顺序 
随机 文件 上 运行 你 的 程序 ， 比 较 你 的 程序 与 程序 7.1 的 性 能 ，: = 2，5 和 10。 

7.36 假设 我 们 在 程序 7.2 中 跳 过 那些 与 划分 元 素 相 等 的 元 素 ， 而 不 是 在 遇 到 它们 时 就 停止 扫 
描 。 证 明 程序 7.1 的 运行 时 间 在 这 种 情况 下 是 平方 时 间 。 
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“7.37 有 0O(1) 个 不 同 值 的 文件 ,证 明 练习 7.36 中 程序 的 运行 时 间 是 平方 量 级 。 

7.38 编写 一 个 确定 出 现在 文件 中 的 不 同 关键 字 值 的 个 数 的 程序 。 使 用 你 的 程序 统计 范围 在 0 
到 M 一 1 之 间 的 N 个 整数 的 随机 文件 中 不 同 值 的 个 数 ， 其 中 M = 10，100 和 1000，N = 103，104， 
105 和 105。 


7.7 字符 串 和 向 量 


当 排 序 的 元 素 是 字符 串 时 ， 我 们 可 以 像 程序 6.11 实 现 快速 排序 那样 ， 使 用 一 个 抽象 字符 串 
类 型 实现 。 虽 然 这 种 方法 提供 了 一 种 正确 且 高 效 的 实现 (对 于 大 型 文件 ， 该 方法 比 目 前 所 看 
到 的 其 他 任何 方法 都 快 )， 但 仍 有 一 个 隐藏 的 开销 值得 考虑 。 

问题 就 是 strcmp 函 数 的 开销 ， 它 总 是 从 左 到 右 依次 比较 两 个 字符 串 ， 它 所 需要 的 时 间 与 
两 个 字符 串 中 匹配 的 主要 字符 个 数 成 正比 。 对 于 快速 排序 算法 后 面 的 划分 过 程 ， 当 那 些 关 键 
字 值 很 接近 时 ， 这 个 匹配 时 间 就 相对 长 一 些 。 又 因为 快速 排序 算法 的 递归 特性 ， 算 法 的 所 有 
开销 儿 乎 都 花 在 后 一 阶段 上 ， 因 而 在 那里 进行 改进 是 值得 的 。 

例如 ， 我 们 考 虚 了 一 个 大 小 为 5， 内 容 为 discreet、discredit、discrete、 discrepancy 和 
discretion 的 文件 。 对 这 些 关键 字 排 序 时 每 次 比较 的 字符 数 至 少 是 7， 如 果 我 们 知道 前 6 个 字符 
相等 的 额外 信息 ， 我 们 完全 可 以 从 第 7 个 字符 开始 比较 。 

在 7.6 节 讨论 的 三 路 划分 过 程 提供 了 利用 这 一 观察 的 好 方法 。 在 每 次 划分 时 ， 我 们 只 检查 
一 个 字符 〈 假 设 在 位 置 d) ， 假 设 待 排序 的 键 值 从 0 到 d-1 都 是 相等 的 。 我 们 在 执行 三 路 划分 时 ， 
只 要 把 小 于 划分 元 素 的 第 d 个 字符 的 关键 字 放 在 左边 ， 把 等 于 划分 元 素 的 第 d 个 字符 的 关键 字 
放 在 中 间 ， 把 大 于 划分 元 素 的 第 d 个 字符 的 关键 字 放 在 右边 。 然 后 ， 如 前 继续 这 一 过 程 ， 只 是 
对 中 间 子 文件 的 排序 从 d+1 开 始 。 不 难看 出 ， 这 种 排序 方法 很 适合 于 字符 串 排 序 ， 运 行 效率 很 
高 ( 见 表 7-2)。 我 们 在 这 里 有 一 个 关于 这 种 思维 的 一 个 令 人 信服 的 例子 。 


表 7-2 不 同 的 快速 排序 算法 的 实验 研究 


这 个 表 中 给 出 了 在 对 Moby Dick 中 的 前 N 个 单词 排序 时 ， 几 个 不 同 版 本 的 快速 排序 算法 的 相对 开销 。 对 小 的 子 文 
件 直接 使 用 插入 排序 ， 或 者 暂时 忽 路 它们 ， 在 文件 排 好 序 后 再 调用 插入 排序 ， 是 两 种 等 价 的 策略 ， 但 对 整数 关键 字 
排序 时 开销 更 小 ， 这 是 因为 字符 串 的 比较 更 费时 。 如 果 我 们 在 划分 过 程 中 过 到 重复 关键 字 时 不 停止 ， 那 么 对 一 个 所 
有 关键 字 都 相等 的 文件 排序 时 间 是 平方 级 的 ， 这 一 结果 在 这 个 例子 中 很 明显 ， 因 为 数据 中 有 大 量 出 现 频繁 的 单词 。 
因为 同样 的 原因 ， 三 路 划分 很 高 效 ， 它 比 系统 的 排序 算法 快 30%~35%。 








N V I M Q Xx T 
12500 8 7 6 10 7 6 
25000 16 14 13 20 17 12 
50000 37 31 31 45 41 29 

100000 91 78 76 103 113 68 





其 中 ， 

V 快速 排序 (程序 7.1) 

I 对 小 的 子 文件 的 插入 排序 

M 忽略 小 的 子 文件 ， 然 后 插入 排序 

Q 系统 qsort 

X 扫描 重复 关键 字 值 ( 当 关键 字 值 全 部 相等 时 ， 复 杂 度 为 平方 级 的 ) 
T 三 路 划分 (程序 7.5) 


为 了 实现 排序 算法 ， 我 们 需要 一 个 更 一 般 化 的 抽象 类 型 ， 允 许 访问 关键 字 中 的 字符 。 在 C 
语言 中 处 理 字符 串 的 方法 使 得 这 种 方法 的 实现 更 为 直接 。 然 而 ， 我 们 到 第 10 章 才 会 详细 考虑 





210 第 三 部 分 排 序 





这 个 问题 ， 在 第 10 章 中 会 考虑 大 量 排序 的 技术 ， 它 们 使 用 了 排序 关键 字 被 分 解 成 较 小 部 分 的 
事实 。 

这 种 方法 可 以 处 理 多 维 排序 问题 ， 也 就 是 说 被 排序 的 关键 字 可 能 是 向 量 ， 按 照 向 量 中 的 
第 一 个 部 分 来 排序 ， 如 果 第 一 个 部 分 相等 ， 再 比较 第 二 部 分 ， 如 此 下 去 。 如 果 每 个 部 分 没有 
重复 的 值 ， 问 题 就 变 成 了 对 第 一 部 分 的 排序 。 然 而 ， 在 一 个 典型 的 应 用 程序 中 ， 每 一 个 部 分 
可 能 只 有 几 个 不 同 的 值 ， 三 路 划分 〈 在 中 间 划 分 时 比较 下 一 个 部 分 ) 是 适合 的 。 这 一 情况 由 
Hoare 在 他 的 原始 论文 中 就 有 讨论 ， 而 且 是 一 个 重要 的 应 用 。 
练习 
7.39 讨论 改进 选择 排序 、 插 和 排序、 冒 泡 排 序 和 希 尔 排序 等 算法 对 字符 串 排序 的 可 能 性 。 
57.40 标准 的 快速 排序 程序 (程序 7.1， 使 用 程序 6.11 中 的 字符 串 类 型 ) 在 对 一 个 由 长 度 为 的 
XN 个 完全 相同 的 字符 串 组 成 的 文件 时 ， 需 要 比较 儿 个 字符 ? 根据 文中 建议 的 修改 回答 相同 的 
问题 。 


7.8 选择 


一 个 与 排序 有 关 但 又 不 需要 完全 排序 的 应 用 是 找 出 一 组 数 中 的 中 间 数 的 操作 。 这 一 操作 
是 统计 学 和 各 种 数据 处 理应 用 中 的 常见 计算 。 一 种 方法 是 对 数据 进行 排序 ， 然 后 直接 得 中 间 
数 ， 但 我 们 可 以 使 用 快速 排序 的 划分 过 程 做 得 更 好 。 

寻找 中 间 元 素 是 选择 操作 的 一 个 特例 ， 即 选择 一 组 数 中 的 第 k 个 最 小 元 素 。 因 为 算法 只 有 
在 检查 并 确定 -1 个 较 小 元 素 和 Nk 个 较 大 元 素 之 后 ， 才 能 确定 出 第 个 最 小 元 素 。 多 数 选择 
算法 无 需 大 量 额 外 计算 ， 就 能 返回 文件 中 的 所 有 第 k 个 最 小 元 素 。 

选择 问题 在 数据 处 理 中 有 许多 应 用 。 使 用 中 间 值 和 顺序 统计 量 将 文件 分 成 较 小 分 组 是 很 
常见 的 。 通 常情 况 下 ， 只 需 存储 一 个 大 文件 的 一 小 部 分 用 于 进一步 处 理 ， 在 这 种 情况 下 ， 程 
序 可 以 选择 ， 比 如 说 文件 中 的 前 10% 的 元 素 ， 而 不 需要 对 整个 文件 排序 。 另 一 个 重要 的 例子 
是 将 使 用 关于 中 间 元 素 的 划分 过 程 作为 许多 分 治 算法 的 第 一 步 。 

我 们 已 经 看 到 了 一 个 适合 直接 用 于 选择 的 算法 。 如 果 k 很 小 ， 那 么 选择 排序 ( 见 第 6 章 ) 
就 可 以 工作 得 很 好 ， 它 的 运行 时 间 与 Nk 成 正比 :首先 寻找 最 小 的 元 素 ， 然 后 通过 找 余下 元 素 
的 最 小 元 素来 找 第 二 小 的 元 素 ， 如 此 下 去 。 对 于 稍 大 些 的 :， 我 们 将 在 第 9 章 看 到 一 些 运行 时 
间 与 N log k 成 正比 的 算法 。 

对 于 任何 x 值 ， 选 择 算 法 的 平均 运行 时 间 为 线性 时 间 ， 可 由 快速 排序 中 使 用 的 划分 过 程 直 
接 而 得 。 回 忆 快 速 排序 的 划分 方法 重 排 数 组 a[1]，… ，a[r]， 返 回 一 个 整数 1， 满 足 a[1]，…， 
a[i-1] 都 小 于 或 等 于 a[i]，a[i+1]，…，a[r] 都 大 于 或 等 于 a[i] ， 如 果 k 等 于 1， 那么 我 们 的 
工作 就 完成 了 。 否 则 ， 如 果 k 小 于 1 ， 那 么 继续 对 左 子 文件 进行 处 理 ， 如 果 k 大 于 i ， 那 么 继续 
对 右 子 文件 进行 处 理 。 这 种 方法 即 为 程序 7.6 的 选择 问题 的 递归 程序 。 图 7-13 给 出 了 该 程序 对 
一 个 小 的 文件 的 操作 过 程 。 

程序 7.6 “选择 算法 a 0 

这 个 过 程 划 分 数组 来 寻找 第 (k 一 1) 个 最 小 元 素 (在 a[k] 中 ) ， 它 重 排 数组 ， 使 8[1]，…， 

a[k-1] 小 于 或 等 于 a[k]，a[k+1]，…，a[r] 都 大 于 或 等 于 a[k]。 


例如 ， 我 们 可 以 调用 select(a，0，N-1，N/2) 来 根据 中 间 元 素 划 分 数组 ， 中 间 元 素 位 于 
a[N/2]。 
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select(Item af[f] int 1, int r, int k) 
{ int i; 
if (r <= 1) return; 
i = partition(a, 1, r); 
if (i > k) select(a, 1, i-1, Kk); 
if (i < k) select(a, i+i, r, Kk); 





图 7-13 中 间 元 素 的 选择 
注 : 对 于 排序 示例 中 的 关键 字 ， 基 于 划分 的 选择 只 使 用 了 三 次 递归 调用 来 找 出 中 间 元 素 。 对 于 第 一 次 递归 调用 ， 
我 们 找 出 大 小 为 15 的 文件 中 的 第 8 个 最 小 元 素 ， 接 着 划分 给 出 第 4 个 最 小 元 素 (E) ; 第 二 次 递归 调用 ,我 
们 找 出 大 小 为 11 的 文件 中 的 第 4 个 最 小 元 素 ， 然 后 划分 给 出 第 8 个 最 小 元 素 (R) ; 第 三 次 递归 调用 ， 我 们 
找 出 大 小 为 7 的 文件 中 的 第 4 个 最 小 元 素 ， 并 找 出 所 要 元 素 〈(M) 。 文 件 被 重 排 以 使 中 间 元 素 在 位 置 上 ， 较 小 
元 素 在 其 左边 ， 较 大 元 素 在 其 右边 (相等 元 素 可 在 两 边 )， 但 文件 并 不 是 完全 有 序 的 。 


程序 7.7 是 递归 程序 7.6 的 非 递归 版 本 ， 因 为 程序 总 是 以 调用 自身 结束 ， 我 们 只 是 简单 重新 


设置 参数 ， 就 回 到 开始 。 也 就 是 说 ， 不 需要 栈 就 把 递归 消除 了 ， 同 时 把 k 作 为 下 标 ， 消 除了 计 
算 k 的 问题 。 


人 ”程序 7.7 非 递归 选择 算法 
选择 算法 的 非 递 归 实 现 只 是 做 了 划分 ， 如 果 划 分 落 在 寻找 位 置 的 左边 ， 就 移动 左 指针 ， 
如 果 划 分 落 在 寻找 位 置 的 右边 ， 就 移动 右 指针 。 


select(Item a[], int 1, int r, int k) 
{ 
while (r > 1) 
{ int i = partition(a, 1, r); 
if (i >= k) r = i-1; 
if (i <= k) 1 = i+l; 
} 
} 


性 质 7.4 基于 快速 排序 的 选择 算法 平均 时 间 复 杂 度 为 线性 时 间 。 

如 同 我 们 在 快速 排序 算法 中 所 做 的 那样 ， 我 们 可 以 粗略 地 论述 这 个 问题 ， 对 于 大 型 文件 ， 
每 次 粗略 地 把 数组 划分 为 两 部 分 ， 因 而 整个 处 理 过 程 大 致 需要 N + N/2 + N/4 + N/8 + … = 2N 
次 比较 。 并 且 如 同 在 快速 排序 中 那样 ， 像 这 样 粗略 地 论述 接近 事实 。 在 7.2 节 中 给 出 的 一 种 类 
似 但 更 复杂 的 关于 快速 排序 的 讨论 可 得 ， 比 较 的 平均 次 数 大 约 为 

2N + 2 k 1n(N/K) +20V 一 有 In(N/(N—Kk)) 
它 是 任何 允许 kK 值 的 线性 函数 。 对 于 k = N/2， 这 一 公式 的 计算 结果 为 ， 大 约 需 要 (2 + 2 In 2)N 
次 比较 来 找 出 中 间 值 。 图 

图 7-14 描 绘 了 根据 这 种 方法 找 出 大 型 文件 中 的 中 间 元 素 的 过 程 。 只 有 一 个 子 文件 ， 每 次 

调用 时 其 大 小 减 去 一 个 常数 因子 ， 因 而 过 程 在 O(log 入 ) 步 完成 。 我 们 可 以 通过 采样 ， 加 速 这 一 
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过 程 。 但 这 样 做 需要 仔细 考虑 ( 见 练习 7.45)。 


NJGL 

"NIHONNSSORRN PR BRIS YR SN ML MRI ha 
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RN NSN NRNN WR AR Ne 
NRRN | MHI 
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SSNNNSBSNNRBSNRRREINTITNEREACRR AAA MG 
图 7-14 通过 划分 选择 中 间 元 素 


注 : 这 个 选择 过 程 划分 含有 所 寻找 元 素 的 文件 ， 并 根据 划分 落 入 所 找 元 素 的 那个 部 分 来 决定 左 指针 向 右 ， 还 是 
右 指针 向 左 。 

最 坏 情况 大 致 和 快速 排序 一 样 。 使 用 这 种 方法 查找 一 个 有 序 的 文件 中 的 最 小 元 素 ， 将 会 
导致 二 次 运行 时 间 。 可 以 修改 基于 快速 排序 的 选择 过 程 ， 使 其 运行 时 间 为 可 保证 的 线性 时 间 。 
这 些 改进 虽然 在 理论 上 是 正确 的 ， 但 极其 复杂 并 不 实用 。 
练习 
7.41 使 用 select， 平 均 大 约 需要 多 少 次 比较 找 出 N 个 元 素 中 的 最 小 元 素 ? 

7.42 使 用 select， 平 均 大 约 需 要 多 少 次 比较 找 出 N 个 元 素 中 的 第 wN 个 最 小 元 素 ， 其 中 c = 
0.1，0.2，…，0.9? 

7.43 使 用 Select ， 最 坏 情 况 需 要 多 少 次 比较 找 出 N 个 元 素 中 的 中 间 元 素 。 

7.44 ”编写 一 个 高 效 的 重 排 文件 的 程序 ， 使 所 有 关键 字 等 于 中 间 元 素 的 元 素 放 在 其 位 置 上 ， 
小 于 中 间 元 素 的 元 素 放 在 左边 ， 大 于 中 间 元 素 的 元 素 放 在 右边 。 

“7.45 ”研究 使 用 采样 思想 来 改进 选择 过 程 。 提 示 ; 使 用 中 间 元 素 并 不 总 是 有 用 的 。 

“7.46 ”对 于 有 it 个 不 同 关键 字 值 的 大 型 随机 文件 ， 实 现 一 个 基于 三 路 划分 的 选择 算法 ， 其 中 1: = 
2，5 和 10。 


第 8 章 归并 与 归并 排序 


我 们 在 第 7 章 所 研究 的 快速 排序 算法 集 是 以 选择 操作 为 基础 的 ; 找 出 文件 中 的 第 上 个 最 小 
元 素 。 我 们 发 现 进行 选择 操作 类 似 于 将 文件 划分 为 两 部 分 ，K 个 最 小 元 素 和 N-K 个 最 大 元 素 。 
在 这 一 章 里 ， 我 们 研究 一 组 基于 互补 过 程 的 排序 算法 ， 归 并 (merging) ， 将 两 个 排 好 序 的 文 
件 组 合成 一 个 较 大 的 有 序 文件 。 归 并 是 直接 分 治 〈 见 5.2 节 ) 排序 算法 的 基础 ， 并 且 也 是 自 底 
向 上 的 基础 ， 这 两 种 策略 都 很 容易 实现 。 

在 某 种 意义 上 ， 选 择 和 归并 操作 是 互补 的 ， 因 为 选择 操作 将 一 个 文件 分 解 成 两 个 独立 的 
文件 ， 而 归并 操作 则 将 两 个 独立 的 文件 合并 成 一 个 文件 。 当 我 们 在 应 用 分 治 范 型 来 创建 一 种 
排序 方法 时 ， 这 两 种 操作 的 对 比 也 就 明显 了 。 在 文件 的 两 部 分 有 序 时 ， 我 们 可 以 重 排 文 件 以 
使 整个 文件 有 序 ， 另 一 种 方法 ， 可 以 将 文件 分 为 两 部 分 来 排序 ， 然 后 对 这 两 部 分 有 序 的 文件 
进行 组 合 ， 以 使 整个 文件 有 序 。 我 们 已 经 看 到 第 一 种 方法 的 过 程 : 即 为 快速 排序 ， 包 括 一 个 
选择 操作 过 程 ， 后 跟 两 个 递归 调用 ， 在 本 章 中 ， 我 们 将 研究 归并 排序 ， 它 的 执行 过 程 和 快速 
排序 相反 ， 两 个 递归 调用 之 后 是 一 个 归并 过 程 。 

归并 排序 最 引 人 注 上 且 的 特性 之 一 是 ， 无 论 是 什么 样 的 输入 ， 它 对 N 个 元 素 的 文件 的 排序 所 
需 时 间 与 N log N 成 正比 。 在 第 9 章 里 ， 我 们 将 看 到 另 一 种 排序 算法 ， 其 所 需 时 间 与 N log NN 成 
正比 ， 这 种 排序 算法 被 称 为 堆 排序 。 归 并 排序 的 主要 缺点 是 在 算法 的 直接 实现 中 ， 所 需 的 空 
间 与 N 成 正比 。 我 们 可 以 克服 这 个 缺点 ， 但 这 样 做 非常 复杂 且 开 销 巨 大 。 在 实际 中 不 值得 这 样 
做 。 归 并 排序 并 不 比 堆 排 序 编码 要 困难 ， 且 它 的 内 循环 的 长 度 介 于 快速 排序 和 堆 排序 的 内 循 
环 之 间 ， 因 而 如 果 速 度 不 是 主要 问题 ， 它 也 没有 最 坏 情况 下 的 性 能 ， 还 有 足够 的 空间 可 以 使 
用 ， 归 并 排序 是 值得 考虑 的 。 

要 保证 N log N 的 运行 时 间 可 能 会 是 一 个 缺点 。 例 如 ， 在 第 6 章 中 ， 我 们 讨论 了 一 些 在 某 种 
情况 下 有 线性 时 间 的 排序 方法 ， 如 文件 中 有 大 量 有 序 的 部 分 ， 或 只 有 几 个 不 同 的 关键 字 的 情 
况 。 相 反 ， 归 并 排序 的 运行 时 间 主 要 取决 于 输入 关键 字 的 个 数 ， 实 际 上 对 关键 字 的 顺序 不 太 
敏感 。 

归并 排序 是 一 种 稳定 的 排序 方法 ， 这 一 特性 使 它 对 于 某 些 稳 定性 重要 的 应 用 成 为 可 选 的 
方法 。 有 竞争 力 的 方法 ， 如 快速 排序 和 堆 排 序 都 不 是 稳定 的 排序 算法 。 各 种 使 这 些 方法 稳定 
的 技术 都 需要 额外 的 空间 ， 归 并 排序 对 额外 空间 的 要 求 已 经 不 是 那么 重要 ， 如 果 稳 定性 只 是 
考虑 的 主要 因素 。 

在 某 种 情况 下 ， 归 并 排序 的 另 一 个 重要 特性 是 通常 实现 时 ， 它 顺序 地 访问 数据 。 例 如 ， 
对 链表 进行 排序 时 选择 归并 排序 ， 其 中 只 能 通过 顺序 方式 来 访问 数据 。 类 似 的 原因 有 ， 如 在 
第 11 章 所 看 到 的 ， 归 并 常常 被 选 为 在 专用 和 高 性 能 计算 机 上 排序 的 基础 ， 因 为 在 这 些 环境 中 ， 
顺序 访问 数据 更 快 。 


8.1 两 路 归并 


给 定 两 个 已 排 好 序 的 文件 ， 通 过 记录 下 每 个 文件 中 的 最 小 元 素 ， 且 当 两 个 文件 中 的 最 小 
元 素 的 较 小 者 被 移 到 输出 文件 时 ， 进 入 循环 ， 继 续 这 一 过 程 直 到 两 个 文件 中 的 元 素 都 已 输出 ， 
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这 样 就 可 以 简单 地 将 它们 组 合 为 一 个 有 序 的 输出 文件 。 在 本 节 和 下 一 节 中 ， 我 们 将 会 讨论 这 
个 基本 抽象 操作 的 几 种 实现 。 假 设 执行 找 文件 中 下 一 最 小 元 素 的 操作 为 常数 时 间 ， 那 么 归并 
操作 的 运行 时 间 是 输出 元 素数 的 线性 函数 。 这 正 是 文件 有 序 的 情况 ， 其 中 使 用 的 数据 结构 如 
数组 或 链表 ， 支 持 常数 时 间 硕 序 访问 文件 中 的 元 素 。 这 个 过 程 称 为 两 路 归并 。 在 第 11 章 中 ， 
我 们 将 详细 讨论 多 路 归并 ， 其 中 有 两 个 以 上 的 文件 要 归并 。 多 路 归并 最 重要 的 应 用 是 外 部 排 
序 ， 也 将 在 第 11 章 详细 讨论 。 

开始 时 ， 假 设 aL[0]，…，a[N-1] 和 b[0]，…，b[W-1] 是 两 个 不 相交 的 有 序 整 型 数组 ， 我 
们 希望 把 它们 归并 为 数组 c[0]，…，c[N+M-1]。 显 然 易 实现 的 策略 是 ， 成 功 地 从 a 和 lb 的 剩余 
元 素 中 为 c 选 择 最 小 元 素 ， 如 程序 8.1 所 示 。 这 种 实现 是 简单 的 ， 但 我 们 现在 要 讨论 它 的 两 个 
重要 特征 。 


i i “程序 8. 和 归并 a 2 
“为 了 将 两 个 已 有 序 的 数组 a 和 b 合 并 为 一 个 有 序 的 数组 c， 我 们 使 用 一 个 for 循 环 ， 并 在 每 次 
迭代 过 程 中 ， 把 一 个 元 素 放 和 人 c 中 。 如 果 a 中 元 素 为 空 ， 就 从 b 中 取 元 素 。 如 果 b 中 元 素 为 空 ， 就 
从 a 中 取 元 素 ， 如 果 a 和 b 中 都 有 元 素 ，a 和 b 中 剩余 元 素 的 最 小 者 放 入 c 中 。 这 个 过 程 假设 了 a 和 b 
是 有 序 的 ， 还 假设 了 数组 c 与 a 和 b 是 不 相交 的 (也 就 是 说 ， 彼 此 间 不 共享 元 素 和 存储 空间 )。 


mergeAB(Item c[], Item a[], int N，Item b[], int M ) 
{ int i, j, k; 
for (i = 0,j=0, k=0; k< NM; Kkr+) 
{ 
if (i == N) { c[k] = b[j++]; continue; } 
if (j == M) { c[k] = a[i++]; continue; } 
c[k] = (less(a[i], b[j])) ? a[i++] : b[j++]; 


} 


首先 ， 实 现 假设 数组 是 不 相交 的 。 特 别 是 ， 如 果 a 和 b 是 大 型 数组 ， 那 么 第 三 个 (大 型 ) 
数组 c 就 需要 保存 输出 。 不 是 使 用 与 归并 文件 大 小 成 线性 的 额外 空间 , 希望 有 一 种 原 位 的 方法 ， 
例如 ， 能 通过 a[1] ，…，a[r] 内 的 元 素 移动 ， 把 有 序 文件 a[1]，…，a[m] 和 a[m+1]， 
a[r] 合 并 成 一 个 有 序 的 文件 ， 而 不 使 用 大 量 额外 的 空间 。 这 个 问题 值得 我 们 停 下 来 想 想 如 何 
做 到 。 这 个 问题 看 起 来 容易 解决 ， 但 实际 上 ， 已 有 的 方法 ， 特 别 是 与 程序 8.1 比 起 来 是 很 复杂 
的 。 实 际 上 ， 研 制 一 个 胜 过 已 有 原 位 排序 算法 的 算法 是 不 容易 的 。 我 们 将 在 8.2 节 回 到 这 个 问 
题 的 讨论 。 

归并 具有 自己 独特 的 应 用 领域 。 例 如 ， 在 一 个 典型 的 数据 处 理 环境 中 ， 我 们 可 能 需要 维 
护 一 个 大 型 (有 序 ) 的 数据 文件 ， 并 向 文件 中 有 规律 地 添加 新 的 数据 项 。 一 种 方法 是 将 每 组 
新 的 数据 项 批量 地 添加 到 主 文件 中 ， 然 后 对 整个 文件 进行 重新 排序 。 这 种 情况 正好 适合 于 归 
并 。 更 高 效 的 策略 是 ， 将 新 的 一 组 数据 项 ( 较 小 的 部 分 ) 进行 排序 ， 然 后 将 结果 小 文件 与 大 
型 主 文件 进行 归并 。 归 并 还 有 其 他 一 些 类 似 的 应 用 ， 值 得 对 它 进行 研究 。 在 本 章 我 们 主要 关 
注 的 是 基于 归并 的 排序 方法 。 
练习 . 
8.1 ”假设 要 将 一 个 大 小 为 N 的 排 好 序 的 文件 与 大 小 为 M 的 排 好 序 的 文件 合并 ， 其 中 MM 比 N 要 小 
得 多 。 对 于 N = 103，105 和 10?， 与 重新 排序 操作 相 比 ， 基 于 归并 算法 的 方法 可 以 快 多 少 倍 ? 
结果 用 的 函数 表示 。 假 设 对 于 大 小 为 N 的 文件 ， 排 序 程序 的 运行 时 间 为 cy N lg N 秒 ， 对 大 小 
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为 N 和 M 的 文件 ， 归并 程序 的 运行 时 间 是 c,(N+M) 秒 ， 其 中 c; 守 Co , 

8.2 与 练习 8.1 中 的 两 种 方法 相 比 ， 使 用 插入 排序 的 策略 结果 如 何 ? (假设 小 文件 是 随机 的 ， 
因而 每 次 插入 要 在 遍历 大 文件 中 的 一 半 元 素 ， 运 行 时 间 约 为 c; MN/2，c; 约 等 于 其 他 两 个 常数 )。 
8.3 ”如 果 在 程序 8.1 试 图 使 用 原 位 归并 ， 描 述 对 序列 A E Q S U Y E 1 N O ST 调 用 merge(a， 
a，N/2，at+N/2，N-N/2) 的 过 程 。 

“8.4 ”按照 练习 8.3 中 描述 的 调用 方法 ， 调 用 程序 8.1 时 ， 产 生 正确 的 输出 ， 当 且 仅 当 两 个 输入 
的 子 数组 是 有 序 的 吗 ? 证 明 你 的 结论 ， 或 给 出 一 个 反例 。 


8.2 抽象 原 位 归并 


虽然 执行 归并 排序 需要 额外 的 内 存 空 间 ， 我 们 仍然 会 在 这 里 讨论 用 于 排序 方法 实现 的 抽 
象 原 位 归并 算法 。 在 下 一 个 归并 实现 中 ， 将 使 用 接口 程序 merge(a，1，m,r) 来 表明 merge 子 
过 程 ， 将 数组 a[1] ，…，a[m] 和 a[m+1] ，…，a[r] 合 并 成 一 个 排 好 序 的 文件 ， 结 果 保 存在 
a[1] ，…，a[r]。 在 实现 中 ， 我 们 可 以 首先 将 所 有 数据 复制 到 一 个 辅助 数组 中 ， 接 着 使 用 程 
序 8.1 中 的 基本 方法 ， 我 们 还 须 考虑 对 该 过 程 进行 改进 。 尽 管 辅助 数组 需要 的 额外 空间 是 固定 
的 开销 ， 但 在 8.4 节 考虑 进一步 的 改进 ， 可 以 避免 复制 数组 需要 的 额外 时 间 。 

基本 归并 算法 中 值得 注意 的 第 二 个 特性 是 内 循环 中 包括 了 两 个 测试 操作 ， 用 于 确定 对 两 
个 输入 数组 访问 是 否 已 到 了 结尾 。 当 然 ， 这 两 个 测试 通常 为 假 ， 这 种 情况 下 ， 就 可 以 改 用 观 
察 哨 ， 以 去 掉 测 试 操 作 。 也 就 是 说 ， 如 果 在 数组 a 和 辅助 数组 aux 的 最 后 加 上 一 个 包含 比 其 他 
关键 字 都 要 大 的 关键 字 的 数据 项 时 ， 就 可 去 掉 测 试 操作 ， 因 为 当 数 组 a (b) 访问 完 后 ， 该 观 
察 哨 使 后 面 要 加 入 数组 c 的 元 素 一 定 是 从 数组 b (a) 中 取出 ， 直 到 完成 整个 合并 操作 。 

然而 ， 如 我 们 在 第 6 章 和 第 7 章 所 看 到 的 ， 并 不 总 是 那么 容易 使 用 观察 哨 ， 因 为 可 能 很 难 
确定 最 大 关键 字 的 值 或 者 存储 空间 不 够 来 存储 观察 哨 。 对 归并 操作 ， 有 一 个 简单 的 补救 方法 ， 
如 图 8-1 所 示 。 该 方法 使 用 了 以 下 基本 思路 要 复制 数组 来 执行 原 位 归并 排序 ， 只 需要 在 复制 
时 将 第 二 个 数组 变 成 倒序 (不 需要 额外 的 开销 )， 因 此 相关 的 指针 从 右 向 左 移动 。 这 样 的 安排 
使 最 大 的 元 素 成 为 了 另 一 个 数组 的 观察 哨 不 管 实际 在 哪个 数组 。 程序 8.2 是 基于 该 思路 的 
抽象 原 位 归并 的 高 效 实现 ， 它 会 作为 本 章 迟 些 讨论 的 排序 算法 的 基础 。 它 仍然 会 使 用 一 个 大 
小 与 归并 输出 文件 大 小 成 正比 的 额外 数组 ， 不 过 效率 比 直接 执行 程序 的 要 高 ， 因 为 避免 了 测 
试 数组 是 否 到 尾部 。 
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图 8-1 不 使 用 观察 哨 的 归并 
注 : 要 归并 两 个 按照 递增 次 序 排 列 的 文件 ， 首 先 将 它们 复制 到 一 个 辅助 数组 中 ， 将 第 二 个 文件 按照 弟 序 的 方式 
紧 跟 在 第 一 个 文件 后 面 。 接 着 ， 按 照 以 下 简单 的 规则 操作 : 将 左边 或 右边 关键 字 较 小 的 项 移 到 输出 文件 中 。 
最 大 的 关键 字 当 作 了 观察 哨 ， 而 不 管 它 在 哪个 数组 中 。 本 图 显示 了 文件 ARST 和 GIN 归 并 的 过 程 。 
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2 
本 程序 让 没有 使 用 观 观察 哨 来 进行 归并 ， 而 是 将 第 二 个 数组 接 全 序 方式 复 仙 到 辅助 数组 aux 中 ， 
紧 跟 在 第 一 个 数组 后 面 〈 使 辅助 数组 aux 变 成 bitonic 顺 序 ) 。 第 一 个 for 循 环 移动 第 一 个 数组 ， 
并 使 1 指向 1， 为 开始 归并 做 好 准备 。 第 二 个 for 循 环 移动 第 二 个 数组 ， 让 j 指 向 r。 接 着 ， 在 归 
并 操作 中 (第 三 个 for 循 环 )， 将 最 大 的 元 素 当 作 观察 哨 ， 不 管 它 在 哪个 数组 。 程 序 的 内 循环 
都 较 短 ( 移 到 aux 中 比较 ， 移 回 到 数组 a 中 ， 增 加 i 或 j 的 值 ， 每 次 k 值 增 1 并 测试 k )。 
Item aux [maxN] ; 
merge(Item a[], int 1, int m, int r) 
{ int i, j, k; 
for (i = mti; i > 1; i--) aux[i-1] = a[i-1]; 
for (j = m; j < IT; j++) aux[rtm-j] = a[j+1]; 
for (k = 1; k <= r; k++) 
if (less(aux[j], aux[i])) 
a[k] = aux[j-~]; else a[k] = aux[i++]; 


} 


关键 字 序 列 先 递 增 ， 再 递减 (或 先 递减 再 递增 )， 称 为 bitonic 序 列 。 对 bitonic 序 列 进行 排 
序 等 价 于 归并 操作 ， 有 时 很 容易 将 归并 问题 转化 为 bitonic 排 序 问题 。 不 使 用 观察 哨 的 方法 很 
简单 。 
程序 8.1 中 的 一 个 重要 特性 是 归并 算法 是 稳定 的 。 它 保持 了 重复 关键 字 中 的 相对 顺序 。 该 
特性 很 容易 验证 ， 而 当 执行 抽象 原 位 归并 时 ， 保 持 算 法 的 稳定 性 是 很 重要 的 ， 因 为 稳定 的 归 
并 立刻 可 以 得 到 稳定 的 排序 方法 ， 我 们 会 在 8.3 节 中 看 到 这 点 。 要 保持 稳定 性 并 不 容易 ， 例 如 ， 
程序 8.2 就 不 稳定 〈 见 练习 8.6) 。 对 这 点 的 考虑 使 构造 一 个 真正 合适 的 原 位 归并 算法 的 问题 更 
复杂 。 
练习 
>8.5 显示 使 用 程序 8.2 如 何 对 关键 字 A E Q S U Y EIN O ST 序列 进行 归并 ， 使 用 图 8-1 中 示 
例 的 图 表 风 格 。 
08.6 解释 为 什么 程序 8.2 是 不 稳定 的 ， 并 编写 一 个 稳定 的 版 本 。 
8.7 显示 使 用 程序 8.2 对 序列 E A SY QU ES 了 TIO N 进 行 操作 的 结果 。 
208.8 ” 当 且 仅 当 两 个 输入 子 数 组 已 排 好 序 ， 程序 8.2 产 生 正 确 的 输出 吗 ? 证 明 你 的 结果 ， 或 给 出 
一 个 反例 。 


8.3” 自 项 向 下 的 归并 排序 


一 旦 完成 归并 过 程 ， 很 容易 使 用 这 个 过 程 作为 递归 排序 过 程 的 基础 。 要 对 给 定 的 文件 排 
序 ， 首 先 将 它 分 成 两 部 分 ， 然 后 对 两 部 分 递归 地 排序 ， 接 着 将 它们 归并 。 程 序 8.3 是 其 中 的 一 
种 实现 方法 ， 图 8-2 图 示 了 一 个 例子 。 如 在 第 5 章 所 提 到 的 ,该 算法 是 使 用 分 治 范 型 进行 高 效 
算法 设计 的 一 个 著名 示例 。 

基本 归并 排序 守 方 法 是 一 个 基本 的 分 治 法 的 递归 程序 。 通过 将 数组 a[1]， …， arr] 分 成 两 部 
分 a[1]，…，afm] 和 a[mtl]，…，a[r] 来 排序 ， 对 它们 独立 地 进行 排序 (使 用 递归 调用 ) ， 然 
后 将 得 到 的 排 好 序 的 文件 合并 ， 得 到 最 终 的 排 好 序 的 文件 。merge 国 数 需 要 一 个 辅助 数组 ， 该 
数组 必须 足够 大 以 保存 输入 文件 的 副本 ， 然 而 可 以 将 该 抽象 操作 看 做 是 原 位 归并 ( 见 正文 ) 。 
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void mergesort(Item a[] ，int 1, int r) 
{ int m= (r+1)/2; 
if (r <= 1) return; 
mergesort (a, 1, m); 
mergesort (a, m+1, r); 
merge(a, 1, m, r); 


} 





ASORTINGEXAMPLE 
A S 


图 8-2 自 顶 向 下 归并 排序 示例 
注 : 图 中 每 一 行 显 示 了 自 项 向 下 归并 算法 中 一 次 调用 merge 操 作 的 结果 。 首 先 ， 将 A 和 S 归 并 到 AS， 接 着 归并 O 
和 R 得 到 OR; 接着 ， 将 OR 与 AS 合并 ， 得 AORS。 然 后 ， 将 IT 和 GN 合并 ,得 到 GINT， 接 着 将 该 结果 与 
AORS 合 并 ， 得 到 AGINORST， 以 此 类 推 。 该 方法 递归 地 将 小 记录 文件 合并 成 大 文件 。 

自 顶 向 下 的 归并 排序 算法 类 似 于 自 顶 向 下 的 管理 风格 ,将 一 个 大 的 任务 分 成 几 个 可 以 独 
立 解决 的 部 分 ， 将 它们 分 配给 各 下 属 人 员 解 决 。 如 果 只 是 将 任务 简单 地 平分 成 两 部 分 ， 然 后 
将 下 属 得 到 的 结果 合并 ， 将 它 传送 给 上 级 ， 该 过 程 就 与 妇 并 排序 类 似 。 没 有 太 多 实际 工作 要 
做 ， 直 到 没有 下 属 的 人 员 获 得 了 任务 (在 这 种 情况 下 ， 是 对 两 个 大 小 各 为 1 的 文件 进行 归 
并 ) ， 然 而 ， 管 理 机 构 做 了 大 部 分 的 工作 ， 将 各 结果 合并 。 

归并 排序 很 重要 ， 因 为 它 是 最 理想 的 直接 排序 方法 运行 时 间 与 N log N 成 正比 ) ， 执 行 过 
程 具有 稳定 性 。 这 些 特性 可 以 比较 容易 地 证 明 。 

如 我 们 在 第 5 章 所 提 到 的 (以 及 第 7 章 介绍 的 快速 排序 )， 可 以 使 用 树 型 结构 来 使 递归 算法 
的 递归 调用 过 程 形象 化 ， 帮 助 我 们 理解 算法 的 变量 ， 加 快 对 算法 的 分 析 。 对 于 归并 排序 ， 递 
归 调用 结构 依赖 于 输入 的 大 小 。 对 任何 给 定 的 N 值 ， 我 们 可 以 定义 一 棵 树 ， 称 为 分 治 树 ， 它 描 
述 了 程序 8.3 在 执行 过 程 中 ， 所 处 理 的 子 文件 的 大 小 〈 见 练习 5.73) : 如果 N 为 1， 该 树 仅 含 标 
号 为 1 的 单个 节点 ， 否则， 该 树 中 包括 一 个 标号 为 文件 大 小 N 的 根 节点 ， 一 个 标号 为 LN/2j 的 
树 作为 左 子 树 ， 一 个 标号 为 [N/21 的 树 作为 右 子 树 。 树 中 每 个 节点 对 应 归并 排序 中 一 个 递归 
调用 。 当 是 2 的 短 时 ， 该 构造 方法 会 产生 一 个 完全 平衡 的 树 ， 所 有 的 节点 都 是 2 的 宕 ,而 外 部 
节点 标号 为 1。 当 N 不 是 2 的 宕 时 ， 树 的 结构 更 复杂 。 图 8-3 中 对 两 种 情况 都 举 了 例子 。 在 5.2 节 ， 
当 讨论 与 归并 算法 使 用 同一 种 递归 调用 过 程 的 算法 时 ， 我 们 已 见 到 过 这 样 结构 的 树 。 

分 治 树 的 结构 性 质 与 归并 排序 的 分 析 直 接 相 关 。 例 如 ， 算 法 中 使 用 的 比较 操作 数目 正 是 
所 有 节点 标号 的 大 小 之 和 。 

性 质 8.1 对 任何 包含 N 个 元 素 的 文件 进行 排序 ， 归 并 排序 需要 执行 大 约 N lg N 次 比较 操作 。 

在 8.1 和 8.2 节 的 实现 中 ， 每 个 W2 与 W2 的 归并 要 求 N 次 比较 (该 数量 可 能 会 差 1 到 2 次 ， 与 
如 何 使 用 观察 哨 有 关 )。 可 用 标准 的 分 治 方程 描述 整个 排序 的 比较 总 次 数 : My = Ms) + 
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Mrwiz1 + N， 其 中 M1 = 0。 该 递归 表达 式 还 描述 了 节点 标号 的 总 和 和 含有 N 个 节点 分 治 树 的 外 


部 路 径 长 度 〈 见 练习 5.73)。 当 N 是 2 的 寡 时 ， 这 里 所 述 的 结果 很 容易 得 到 验证 ， 并 且 对 于 一 般 
N 的 情形 可 用 归纳 法 证 明 。 练 习 8.12 至 8.14 描 述 了 一 种 直接 证 明 方 法 。 图 
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8-3 分 治 树 


注 : 这 些 树 以 图 示 的 形式 描述 了 自 顶 向 下 归并 排序 所 创建 的 子 问题 的 大 小 。 例如 ,与 快速 排序 所 对 应 的 树 不 同 ， 
这 些 模式 只 依赖 于 初始 文件 的 大 小 ,与 文件 中 关键 字 的 值 无 关 。 上 图 显示 了 对 32 个 元 素 的 文件 排序 的 过 程 。 
我 们 (递归 地 ) 对 16 个 元 素 的 两 个 文件 排序 ， 然 后 对 它们 进行 归并 。 通 过 (递归 地 ) 对 8 个 元 素 的 两 个 文 
件 进行 排 序 来 进行 对 16 个 元 素 的 排序 ， 以 此 类 推 。 对 于 大 小 不 是 2 的 墨 的 文件 ， 这 种 模式 更 为 复杂 ， 如 下 
图 所 示 。 
性 质 8.2 归并 排序 使 用 与 NM 成 正比 的 额外 内 存 空间 。 
这 一 事实 由 8.2 节 中 的 讨论 可 得 。 我 们 可 以 执行 一 些 步 又 使 算法 更 复杂 来 减低 所 使 用 内 存 
空间 (例如 ， 见 练习 8.21)。 如 在 8.7 节 中 所 讨论 的 ， 当 待 排序 的 文件 组 织 成 为 链表 时 ， 归 并 排 
序 同样 高 效 。 在 这 种 情况 下 ， 性 质 8.2 仍 然 成 立 ， 但 链表 需要 额外 空间 。 对 于 数组 ， 如 在 8.2 市 
和 将 在 8.4 节 讨论 的 那样 ， 可 能 执行 原 位 归并 ， 虽 然 在 实际 中 不 值得 使 用 这 一 策略 。 图 
性 质 8.3 如 果 所 使 用 的 归并 算法 是 稳定 的 ， 那么 归并 排序 是 稳定 的 。 
这 一 事实 很 容易 使 用 归纳 法 验证 。 对 于 程序 8.1 中 的 归并 实现 ， 容 易 看 出 ， 重 复 关 键 字 的 
相对 位 置 在 归并 过 程 中 没有 变化 。 然 而 , 算法 越 复杂 , 稳定 性 就 越 可 能 遭 到 破坏 〈 见 练习 8.6) 。 
图 
性 质 8.4 归并 排序 所 需 资源 与 输入 初始 顺序 无 关 。 
在 实现 中 ， 输 入 决定 了 元 素 在 归并 中 被 处 理 的 顺序 。 每 一 遍 所 需 空间 和 执行 步 数 与 子 文 
件 的 大 小 成 正比 ， 这 是 因为 元 素 移 到 辅助 数组 所 带 来 的 开销 。 在 编译 过 的 代码 中 ，if 语 名 的 
两 个 分 支 所 占 时 间 可 能 稍 有 不 同 ， 使 得 在 运行 时 间 里 含有 一 个 与 输入 相关 的 小 变量 ， 但 是 比 
较 次 数 和 其 他 针对 输入 的 操作 与 它 的 顺序 无 关 ， 要 注意 的 是 ， 这 并 不 等 同 于 说 ， 该 算法 不 是 
适应 性 的 〈 见 6.1 节 ) ， 但 比较 序列 的 确 与 输入 顺序 有 关 。 
练习 
v8.9 显示 程序 8.3 对 于 关键 字 EASYQUESTION 进 行 排序 时 的 归并 过 程 。 
8.10 对 于 N= 16，24，31，32，33 和 39， 画 出 其 分 治 树 。 
。8.11 在 数组 上 实现 递归 归并 排序 ， 使 用 三 路 归并 的 思想 ， 不 使 用 两 路 归并 的 思想 。 
co8.12 证 明 分 治 树 中 标号 为 1 的 所 有 节点 都 在 树 中 的 底部 两 层 上 。 
o8.13 证明 大 小 为 N 的 分 治 树 中 每 层 节 点 的 标号 之 和 为 N， 最 后 一 层 可 能 不 成 立 。 
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08.14 使 用 练习 8.12 和 8.13， 证 明 归 并 排序 所 需 的 比较 次 数 介 于 N lg N 和 N lg N + N 之 间 。 
*8.15 求 出 并 证 明 归并 排序 所 使 用 的 比较 次 数 和 小 于 N 的 [lgN | 位 正 数 的 关系 。 


8.4 基本 算法 的 改进 


如 在 快速 排序 所 讨论 的 ， 我 们 可 以 通过 对 小 文件 处 理 来 改进 大 多 数 递归 算法 。 因 此 ， 像 
在 快速 排序 中 所 作 的 那样 ， 对 于 小 文件 使 用 播 和 排序 可 以 改进 典型 归并 排序 的 实现 时 的 运行 
时 间 ， 改 进 达 10% 至 15%。 
对 归并 排序 所 做 的 第 二 种 改进 ， 是 消除 归并 时 把 元 素 复制 到 辅助 数组 所 花费 的 时 间 。 为 
了 做 到 这 一 点 ， 我 们 排列 递归 调用 ， 切 换 每 层 输入 数组 和 辅助 数组 的 作用 。 一 种 方法 是 实现 
两 个 版 本 的 例 程 ， 一 个 版 本 的 例 程 负责 把 输入 放 入 aux 中 ， 把 输出 放 入 a 中 ， 另 一 个 版 本 的 例 
程 负责 把 输入 放 入 a 中 ， 把 输出 放 入 aux 中 ， 然 后 使 两 个 版 本 互相 调用 。 另 一 种 方法 显示 在 程 
序 8.4 中 ， 在 一 开始 对 数组 作 一 次 复制 ， 接 着 使 用 程序 8.1， 并 切换 递归 调用 中 的 变量 ， 来 消除 
显 式 数 组 复制 操作 。 事 实 上 ， 我 们 是 在 将 归并 好 的 输出 文件 放 在 辅助 数组 中 和 把 它 放 在 输入 
数组 之 间 进 行 切换 (程序 有 复杂 技巧 ) 。 
1 程序 84 没有 复制 的 归并 排序 ” I 
递归 程序 对 b 排 序 ， 把 结果 放 在 a 中 。 因 此 ， 递 归 调 用 的 结果 放 在 b 中 ， 我 们 使 用 程序 8.1 
把 b 中 的 这 些 文件 归并 ， 放 入 a 中 。 用 这 种 方法 ， 在 归并 过 程 中 进行 所 有 数据 的 移动 。 
Item aux [maxN] ; 
void mergesortABr (Item a[], Item b[], int 1, int r) 
{ int m = (1+r)/2; 
if (r-1L <= 10) { insertion(a, 1, r); return; } 
mergesortABr(b, a, 1, m); 
mergesortABr(b, a, m+1, r); 
mergeAB(atl, b+l, m-1+1, bt+mt+1, r-m); 
} 
void mergesortAB(Item a[], int 1, int r) 
{ int i; 
for (i = 1; i <= rr; i++) aux[il] = al[il]; 
mergesortABr{(a, aux, 1, r); 


} 


消除 数组 复制 操作 的 代价 是 在 内 循环 中 放置 测试 输入 数组 是 否 到 末尾 的 操作 。( 回 忆 在 程 
序 8.2 中 的 复制 中 把 数组 变 成 bitonic 序 列 ， 来 消除 这 些 测试 的 技术 。) 通过 运用 相同 思路 的 递 
归 实 现 ， 来 弥补 该 损失 在 归并 和 归并 排序 中 实现 了 这 些 例 程 。 一 是 使 数组 递增 排列 ， 一 是 
使 数组 递减 排列 。 使 用 这 种 方法 ， 可 以 重新 生成 bitonic 数 组 ， 因 此 不 需要 在 内 循环 中 使 用 观 
察 哨 。 

给 定 这 种 方法 使 用 了 4 个 基本 例 程 的 副本 ， 它 只 被 一 些 专家 (或 学 生 ) 所 使 用 ， 不 过 它 确 
实 可 以 明显 提高 归并 排序 的 效率 。 在 8.6 节 讨论 的 实验 结果 表明 ， 结 合 这 些 改进 方法 ， 归 并 排 
序 的 效率 可 以 提高 40%, 然而 归并 排序 要 比 快速 排序 慢 25%。 这 个 结论 是 和 实现 及 机 器 有 关 的 ， 
但 在 不 同 的 情况 下 都 会 得 到 类 似 的 结果 。 

另 一 种 归并 实现 方法 ， 包 括 一 个 检测 第 一 个 文件 是 否 到 末尾 的 显 式 操作 ， 运 行 时 间 根 据 
输入 文件 大 小 有 较 大 的 差别 ， 但 差别 也 不 是 很 大 。 对 于 随机 文件 ， 当 一 个 子 文件 已 读 完 时 ， 
其 他 子 文件 的 大 小 也 已 很 小 ， 而 移动 到 辅助 数组 的 开销 仍然 与 子 文件 的 大 小 成 正比 。 当 文件 
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中 已 基本 排 好 序 时 ， 可 以 这 样 对 归并 算法 进行 改进 ， 如 果 文 件 已 经 完全 排 好 序 了 ， 就 跳 过 
a 但 对 大 部 分 类 型 的 文件 来 说 ， 这 一 策略 并 没有 太 大 的 效用 。 

之 习 

8.16 实现 一 个 抽象 的 原 位 归并 程序 ， 使 用 与 两 个 待 归 并 的 数组 中 较 小 的 那个 数组 的 大 小 成 
正比 的 额外 空间 《你 的 方法 为 归并 排序 节省 一 半 的 空间 ) 。 

8.17 对 大 的 随机 文件 运行 归并 排序 程序 ， 当 某 个 子 文件 访问 完成 后 ， 将 其 他 子 文件 中 未 访 
问 的 数据 项 平均 数 表示 为 N (归并 中 两 个 子 文件 的 大 小 的 总 和 ) 的 函数 。 

8.18 假设 对 程序 8.3 进 行 修改 ， 使 am] < a[mt+1] 时 ， 跳 过 对 merge 的 调用 。 在 待 排 序 的 文件 
已 经 有 序 时 ， 这 种 方法 要 节省 多 少 比较 次 数 ? 

8.19 ”对 大 的 随机 文件 运行 练习 8.18 中 提 到 的 修改 过 的 算法 。 将 节省 的 merge 操 作 的 平均 数 表 
示 成 N (原始 排序 文件 的 大 小 ) 的 函数 。 

8.20 ”假设 归并 排序 运行 在 h- 排 序 文件 上 ，h 值 较 小 。 如 何 改 变 merge 过 程 以 利用 输入 文件 的 
特性 。 用 希 尔 排 序 和 归并 排序 结合 的 算法 。 

8.21 ”研制 一 个 归并 算法 的 实现 ， 使 所 使 用 的 额外 内 存 空 间 减 少 到 max(M, N/M)， 该 算法 使 用 
了 以 下 思想 : 将 数组 分 成 大 小 为 M 的 N/M 块 (为 简化 描述 ,假设 N 是 M 倍 数 )。 接 着 以 记录 的 第 
一 个 关键 字 作 为 排序 关键 字 ， 使 用 选择 排序 对 各 块 的 记录 进行 排序 ， 然 后 将 数组 的 第 一 块 归 
并 到 第 二 块 中 ， 接 着 将 第 二 块 归并 到 第 三 块 中 ， 以 此 类 推 。 

8.22 证明 练习 8.21 中 的 方法 的 运行 时 间 是 线性 的 。 

8.23 ”实现 无 复制 操作 的 bitonic 归 并 排序 。 


8.5 自 底 向 上 的 归并 排序 


正如 我 们 在 第 5 章 中 所 讨论 的 ， 每 个 递归 程序 都 有 一 个 等 价 的 非 递归 程序 与 之 对 应 ， 而 计 
算 顺序 不 同 。 作 为 分 治 法 的 算法 设计 范 型 ， 归 并 排序 的 非 递 妇 实 现 很 值得 详细 研究 。 

考虑 递归 算法 中 所 调用 的 归并 序列 。 在 图 8-2 的 例子 中 ， 对 大 小 为 15 的 文件 进行 排序 时 ， 
所 执行 的 归并 序列 如 下 : 

1-1 1-1 2-2 1-1 1-1 2-2 4-4 

1-1 1-1 2-2 1-1 2-1 4-3 8-7 
这 一 递归 顺序 由 算法 的 递归 结构 决定 。 然 而 ， 子 文件 是 独立 处 理 的 ， 归 并 操作 可 以 以 不 同 的 
序列 进行 。 对 同一 个 例子 ， 图 8-4 显 示 了 自 底 向 上 的 方法 ， 所 使 用 的 归并 序列 如 下 : 

1-1 1-1 1-1 1-1 1-1 1-1 1-1 

2-2 2-2 2-2 2-1 4-4 4-3 8-7 

在 每 种 情况 下 ， 有 7 次 1-1 的 归并 ，3 次 2-2 的 归并 ，1 次 2-1 的 归并 ，1 次 4-4 的 归并 ，1 次 4-3 
的 归并 及 1 次 8-7 的 归并 。 只 是 归并 的 顺序 不 同 。 自 底 向 上 的 策略 是 将 其 余 最 小 的 文件 进行 归 
并 ， 从 数组 的 左边 向 右边 进行 访问 。 

递归 算法 中 的 归并 序列 是 由 图 8-3 中 所 示 的 分 治 树 决定 的 : 按 后 序 遍 历 访问 整 棵 树 。 如 第 
3 章 所 讨论 的 ， 非 递归 算法 可 以 通过 使 用 显 式 栈 来 得 到 相同 的 归并 序列 。 但 不 一 定 要 求 使 用 后 
序 遍 历 , 任何 一 种 遍历 树 的 方法 ， 只 要 在 它 访问 节点 自身 之 前 先 访问 它 的 子 树 ， 都 可 以 产生 
正确 的 算法 。 惟 一 的 限制 是 待 归并 的 文件 必须 是 有 序 的 。 对 于 归并 排序 而 言 ， 首 先 执 行 所 有 
1-1 的 归并 ， 然 后 执行 所 有 2-2 的 归并 ， 接 着 执行 所 有 4-4 的 归并 ， 以 此 类 推 。 这 一 序列 对 应 层 
序 遍历 ， 从 递归 树 的 底层 开始 访问 。 
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图 8-4 自 底 向 上 归并 排序 示例 
注 ; 每 行 显示 了 自 底 向 上 归并 过 程 中 调用 merge 的 结果 ， 首 先进 行 1-1 归 并 : A 和 S 归 并 成 A S; 接着 DO 和 RR 归 并 成 
O R; 以 此 类 推 。 因 为 文件 大 小 为 奇数 ， 因 而 最 后 的 已 没有 包含 在 归并 中 。 第 二 遍 归 并 中 ， 进 行 2-2 归 并 : A 
$ 与 O R 归 并 为 AQORS， 以 此 类 推 ， 以 一 炊 2-1 归 并 完成 这 一 遍 的 归并 过 程 。 然 后 进行 一 次 4-4 归 并 ， 一 次 4- 
3 归并 ， 最 后 进行 一 次 8-7 归 并 ， 完 成 排序 。 

在 第 5 章 中 我 们 讨论 的 几 个 例子 表明 ， 当 按照 自 底 向 上 的 方式 思考 时 ， 值 得 按照 组 合 一 求 
解 策略 求解 问题 ， 即 先 求 出 小 的 子 问题 的 解 ， 再 把 它们 组 合成 较 大 问题 的 解 。 特 别 是 在 程序 
8.5 中 得 到 归并 排序 的 组 合 一 求解 的 递归 版 本 ， 方 法 如 下 : 将 文件 中 的 所 有 元 素 看 作 大 小 为 1 
有 序 子 表 ， 接 着 遍历 这 些 表 进行 1-1 归 并 ， 产 生 大 小 为 2 的 有 序 子 表 ， 然 后 遍历 文件 列表 进行 2- 
2 归并 ， 产 生 大 小 为 4 的 有 序 子 表 ， 然 后 进行 4-4 归 并 ， 产 生 大 小 为 8 的 有 序 子 表 ， 以 此 类 推 ， 
直到 整个 表 有 序 。 


程序 865 自 底 向 上 的 蚊 并 排序 ， | 
通过 在 整个 文件 上 进行 多 这 的 mf 的 归并 ， 完成 自 底 向 上 的 归并 排序 在 每 一 遍 中 m 加 倍 。 
仅 当 文件 大 小 是 m 的 偶数 倍 时 ， 最 终 子 文件 的 大 小 为 m， 因而 最 后 的 归并 是 m-x 的 归并 ，x 小 于 
或 等 于 m。 


#define min(A, B) (A < B) 了 A :B 
void mergesortBU(Item a[], int 1, int r) 
{ int i, m; 
for (m= 1; m <= r-l; m = mtm) 
for (i = 1; i <= r-m; i += m+m) 
merge(a, i, itm-1, min(itm+m-1, r)); 





} 


如 果 文 件 大 小 为 2 的 者 ， 自 底 向 上 归并 排序 所 进行 的 归并 集 恰 好 是 递归 归并 排序 所 执行 的 
归并 集 ， 但 归并 的 顺序 有 所 不 同 。 自 底 向 上 归并 排序 对 应 分 治 树 从 底层 向 上 的 层 序 遍历 。 相 
反 ， 我 们 称 递归 算法 为 自 顶 向 下 的 归并 排序 ， 因 为 后 序 遍 历 是 从 树 的 顶层 向 下 的 。 

如 果 文 件 大 小 不 为 2 的 等 ， 自 底 向 上 归并 排序 会 执行 不 同 的 归并 集 ， 如 图 8-5 所 示 。 自 底 
向 上 算法 对 应 一 棵 组 合 -- 求 解 树 ( 见 练习 5.75)， 这 棵 树 不 同 于 自 顶 向 下 算法 对 应 的 分 治 树 。 
可 能 重 排 递归 方法 产生 的 归并 序列 ， 使 其 与 非 递归 方法 产生 的 序列 一 样 ， 但 是 没有 特殊 理由 
要 这 样 做 ， 因 为 对 于 整体 开销 ， 这 个 差异 是 微小 的 。 
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图 8-5 自 底 向 上 归并 排序 文件 大 小 
注 ; 在 文件 大 小 不 是 2 的 圭 时 ， 自 底 向 上 归并 排序 的 归并 模式 完全 不 同 于 自 顶 向 下 归并 排序 (图 8-3) 的 归并 模 
式 。 对 于 自 底 向 上 的 归并 排序 ， 除 了 最 后 一 个 文件 之 外 ， 其 他 的 文件 大 小 都 是 2 的 辕 。 这 些 差别 在 理解 算法 
的 基本 结构 时 非常 有 用 ， 但 对 性 能 影响 不 大 。 
性 质 8.1 至 性 质 8.4 对 于 自 底 向 上 的 归并 排序 成 立 。 还 有 以 下 一 些 性 质 ， 
性 质 8.5 自 底 向 上 归并 排序 每 一 遍 中 的 所 有 归并 包含 的 文件 大 小 为 2 的 需 ， 除 了 最 后 一 个 
文件 的 大 小 。 
用 归纳 法 易 证 这 一 性 质 。 图 
性 质 8.6 ”NN 个 元 素 的 自 底 向 上 归并 排序 执行 的 遍 数 正好 是 NN 的 二 进 制 表示 (忽略 最 前 面 的 
0 的 位 ) 的 位 数 。 
在 自 底 向 上 归并 排序 中 ， 每 一 遍 会 使 有 序 文件 的 大 小 加 倍 ， 因 而 在 经 过 k 遍 之 后 子 文件 的 
大 小 为 %。 因 此 ， 对 N 个 元 素 的 文件 排序 的 遍 数 是 使 2 > 成 立 的 最 小 k 值 ， 即 为 ljgN]， 也 即 
NN 的 二 进 制 表示 的 位 数 。 我 们 也 可 以 用 归纳 法 或 分 析 组 合 一 求 解 树 的 结构 性 质 来 证 明 这 一 结论 。 
国 
图 8-6 中 给 出 了 在 较 大 文件 上 执行 自 底 向 上 归并 排序 时 的 操作 。 
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图 8-6 自 底 向 上 归并 排序 


注 : 对 于 一 个 200 个 元 素 的 排序 ， 利用 自 底 向 上 的 归并 排序 ， 我 们 只 需要 执行 7 遍 。 每 一 遍 将 有 序 的 子 文件 数 减 
半 ， 而 使 子 文件 的 长 度 加 倍 〈 除 了 最 后 一 个 文件 ) 。 


总 之 ， 自 底 向 上 归并 排序 和 自 顶 向 下 归并 排序 是 两 种 基于 归并 的 直接 排序 算法 ， 归 并 操 
作 把 两 个 有 序 的 子 文件 组 合成 一 个 有 序 输出 文件 。 在 文件 大 小 为 2 的 寡 时 ， 这 两 种 算法 非常 相 
近 ， 执 行 相同 的 归并 操作 集 。 图 8-7 针 对 大 型 文件 描述 了 它们 的 不 同 的 动态 性 能 特性 。 在 空间 
不 是 主要 问题 ， 且 需要 有 可 保障 的 最 坏 情 况 下 的 运行 时 间 时 ， 这 两 个 算法 都 可 以 用 在 实际 中 。 
这 两 个 算法 经 常 作为 分 治 法 和 组 合 一 求解 算法 设计 范 型 的 原型 例子 。 
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图 8-7 自 底 向 上 归并 排序 与 自 顶 向 下 归并 排序 
注 ; 自 底 向 上 归并 排序 左 图 ) 包括 遍历 文件 的 若干 迄 ， 在 每 一 遍 中 把 有 序 的 子 文件 归并 在 一 起 ， 直 到 只 剩 一 
个 文件 。 除 了 在 文件 最 后 的 几 个 元 素 ， 文 件 中 的 每 个 元 素 都 包括 在 每 一 遍 中 。 而 自 顶 向 下 的 归并 排序 ( 右 
图 ) 首先 把 文件 的 左 半 部 分 排序 ， 才 处 理 文 件 的 右 半 部 分 (递归 ) ， 因 而 它 的 执行 模式 表 定 是 不 同 的 。 
练习 
8.24 显示 自 底 向 上 归并 排序 对 于 关键 字 E A SY Q UE STIO NN 排 序 时 的 归并 过 程 。 
8.25 ”实现 一 个 自 底 向 上 的 归并 排序 程序 ， 开 始 时 用 插入 排序 对 M 个 元 素 的 块 进行 排序 。 对 
于 N = 10;，10*，105 和 10s 个 元 素 的 随机 文件 ， 通 过 实验 确定 使 程序 运行 最 快 的 M。 
8.26 对 于 NW= 16，24，31，32，33 和 39， 画 出 程序 8.5 执 行 中 表示 归并 的 树 。 
8.27 ”编写 一 个 递归 归并 排序 程序 ， 它 与 自 底 向 上 归并 排序 有 相同 的 归并 序列 。 
8.28 编写 一 个 自 底 向 上 归并 排序 程序 ， BIH FUT 列 ( 这 个 练 
习 要 比 练习 8.27 复 杂 得 多 )。 
8.29 ”假定 文件 大 小 为 2 的 备 。 从 自 顶 向 下 归并 排序 中 去 掉 递 归 , 来 得 到 一 个 非 递 归 归 并 排序 ， 
它 执 行 的 归并 序列 不 变 。 
8.30 证 明 自 顶 向 下 归并 排序 执行 的 遍 数 也 是 N 的 二 进 制 表示 的 位 数 ( 见 性 质 8.6) 。 


8.6 归并 排序 的 性 能 特征 


表 8-1 显 示 了 对 算法 所 作 的 各 种 改进 的 效果 。 这 是 经 常 出 现 的 情况 。 这 些 研究 表明 了 通过 
对 算法 的 内 循环 进行 改进 ， 我 们 可 以 把 运行 时 间 降 低 一 半 或 更 多 。 
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表 8-1 归并 排序 算法 的 实验 研究 


对 于 不 同 N 值 ， 对 浮 点 数 的 随机 文件 进行 排序 的 各 种 方法 的 相对 时 间 表 明了 标准 快速 排序 是 标准 归并 排序 时 间 
的 两 倍 ， 增 加 阔 什 的 小 文件 使 自 底 向 上 归并 排序 和 自 顶 向 下 归并 排序 的 运行 时 间 降 低 了 大 约 15%， 对 于 这 些 文件 ， 使 
自 顶 向 下 的 归并 排序 的 运行 时 间 比 自 底 向 上 归并 排序 的 运行 时 间 大 约 快 10%， 对 于 随机 有 序 文件 ， 即 使 去 挤 文 件 复制 
的 开销 ， 归 并 排序 也 比 一 般 快 速 排序 要 慢 50% 到 60% ( 见 表 7-1)。 











自 顶 向 下 自 底 向 上 

N Q T T* O B B* 
12500 2 5 4 4 5 4 
25000 5 12 8 8 11 9 
50000 11 23 20 17 26 23 
100000 24 53 43 37 59 53 
200000 52 111 92 78 127 110 
400000 109 237 198 168 267 232 
800000 241 524 426 358 568 496 





其 中 : 

Q 快速 排序 ， 标 准 (程序 7.1) 

T 自 顶 向 下 归并 排序 ， 标 准 (程序 8.1) 

T* 自 顶 向 下 归并 排序 ， 使 用 小 的 子 文件 进行 中 断 
Q 自 顶 向 下 归并 排序 ， 有 中 断 且 不 使 用 数组 复制 
B 自 底 向 上 归并 排序 ， 标 准 (程序 8.5) 

B* 自 底 向 上 归并 排序 ， 使 用 小 的 子 文件 进行 中 断 


除了 对 8-2 市 中 所 讨论 的 问题 进行 改进 ， 还 可 以 把 两 个 数组 中 的 最 少 元 素 保 存在 简单 变量 
或 机 器 寄存 器 中 ， 避 免 不 必要 的 对 数组 的 访问 ， 来 获得 更 好 的 效果 。 因 此 ， 归 并 排序 的 内 循 
环 可 以 减低 到 一 次 比较 (有 条 件 分 支 )、 两 个 指针 增 量 (Kk 和 i 或 j))， 以 及 一 次 测试 循环 是 否 结 
束 的 条 件 分 支 操作 。 内 循环 中 的 指令 总 数 稍微 要 比 快速 排序 要 高 一 些 ， 但 是 指令 只 执行 N lg N 
次 ， 而 快速 排序 通常 要 多 执行 39% (或 用 三 者 取 中 法 时 多 执行 29%)。 在 实际 环境 中 对 于 更 精 
确 的 比较 算法 ,需要 进行 仔细 实现 和 详细 分 析 ， 因 为 我 们 知道 ， 归 并 排序 的 内 循环 的 确 比 快 
速 排序 的 内 循环 运行 时 间 要 长 些 。 

如 常 ， 不 断 地 改进 程序 对 于 很 多 程序 员 是 不 可 抗拒 的 ， 有 时 可 以 得 到 一 些 临界 好 处 。 因 
而 在 进行 更 多 考虑 之 后 再 执行 。 在 这 种 情况 下 ， 归 并 排序 比 快速 排序 具有 显著 优势 。 因 为 它 
是 稳定 的 排序 算法 ， 且 可 保证 运行 很 快 〈 与 输入 无 关 ) ， 它 的 缺点 是 使 用 的 空间 与 数组 大 小 成 
正比 。 当 倾向 使 用 归并 排序 (速度 是 重要 因素 时 ) ， 就 需要 考虑 提 到 的 改进 方法 ， 还 要 仔细 考 
虑 编译 器 所 生成 的 代码 ， 机 器 结构 的 特性 等 等 。 

另 一 方面 ， 还 必须 指出 ， 程 序 员 应 该 着 眼 于 性 能 ， 以 避免 不 必要 的 开销 。 所 有 程序 员 
《和 作者 ) 都 有 过 对 控制 实现 其 他 复杂 机 制 的 实现 特性 忽视 而 导致 的 得 炊 。 当 对 程序 进行 仔细 
考察 后 ， 运 行 时 间 提 高 两 倍 是 可 能 的 。 不 断 地 进行 检测 操作 是 最 高 效 的 改进 方法 。 

我 们 在 第 5 章 中 用 较 大 篇 幅 讨论 了 这 些 观点 ， 但 是 受到 过 早 优 化 的 吸引 ， 使 我 们 每 次 都 想 
要 在 这 个 层面 上 研究 改进 性 能 的 技术 。 对 于 归并 排序 ， 我 们 进行 了 优化 ， 因 为 性 质 8.1 至 性 质 
8.4 所 表征 的 特性 ， 对 于 我 们 考虑 过 的 所 有 情况 都 成 立 ， 它 们 的 运行 时 间 与 N lg N 成 正比 ,与 
输入 无 关 ( 见 图 8-8) ， 它 们 使 用 额外 空间 ， 可 以 稳定 实现 。 保 持 这 些 特征 同时 改进 运行 时 间 
一 般 来 说 是 不 难 的 。 
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图 8-8 使 用 自 底 向 上 归并 排序 对 各 种 类 型 文件 进行 排序 
注 : 归并 排序 的 运行 时 间 和 输入 文件 无 关 。 本 图 显示 了 对 随机 文件 、 高 斯 序列 文件 、 基 本 有 序 序列 文件 、 率 序 

文件 及 随机 接 10 个 关键 字 排列 的 文件 进行 自 底 向 上 归并 排序 的 操作 过 程 。 显 示 了 只 与 文件 大 小 有 关 ， 而 与 

文件 的 输入 值 无 关 。 这 个 特性 与 快速 排序 及 其 他 很 多 算法 都 不 同 。 
练习 
8.31 不 使 用 数组 复制 ， 实 现 自 底 向 上 的 归并 排序 。 
8.32 使 用 快速 排序 、 归 并 排序 和 播 人 排序 算法 ， 开 发 一 个 三 层 混合 排序 算法 ， 使 它 的 效率 
和 最 好 的 快速 排序 算法 一 样 〈 即 使 对 于 小 的 文件 ) ， 但 可 以 保证 它 的 性 能 比 最 坏 情况 下 的 二 次 
时 间 性 能 要 好 。 


8.7 ”归并 排序 的 链表 实现 


在 归并 排序 的 实际 实现 中 需要 额外 的 内 存 空 间 ， 所 有 我 们 可 以 考虑 使 用 链表 来 实现 。 也 
就 是 说 ， 不 使 用 辅助 数组 占用 额外 空间 ， 而 是 使 用 链表 。 或 者 我 们 需要 解决 如 何 对 链表 进行 
排序 〈 见 6.9 节 )。 事 实 上 ， 归 并 排序 是 很 适合 用 链表 的 。 程 序 8.6 给 出 了 一 个 对 链表 进行 归并 
操作 的 完整 执行 过 程 。 注 意 所 使 用 的 归并 操作 代码 和 基于 数组 的 归并 操作 代码 (程序 8.2) 一 
样 简单 。 





站 和 6 本 表 上 NI 

序 借助 于 辅助 指针 c， 将 a 指 向 的 链表 和 b 指 向 的 链表 归并 。 merge 中 的 关键 字 比 较 包 

括 相 等 的 情况 因而 如 果 把 b 表 链 在 a 表 的 后 面 ， 归 并 过 程 是 稳定 的 。 为 简化 起 见 ， 我 们 采用 

常规 约定 ， 所 有 表 以 MLL 结 束 。 其 他 表 结 束 的 约定 都 行 ( 见 表 3-1)。 更 重要 的 是 ， 我 们 没有 
使 用 头 节点 ， 以 避免 过 度 使 用 。 


link merge(link a, link b) 
{ struct node head; link c = &head; 
while ((a I= NULL) && (b != NULL)) 
if (less(a->item, b->item)) 
{ c->next = ai c = a; a = a->next; } 
else 
{ c->next = bl c = bj b = b->next; } 
ct->next = (a == NULL) ?了 b : ai 
return head.next; 


} 





给 定 这 个 归并 函数 ， 容 易 得 到 自 顶 向 下 递归 表 的 归并 排序 。 程 序 8.7 是 函数 的 一 种 直接 递 
归 实 现 ， 其 中 输入 为 指向 无 序 表 的 指针 ， 返 回 一 个 指向 包含 相同 元 素 但 有 序 的 表 的 指针 。 程 
序 重新 排列 表 中 的 节点 完成 排序 过 程 : 不 需要 分 配 临时 节点 或 临时 表 。 把 表 的 长 度 作为 参数 
传 给 递归 程序 或 把 表 的 长 度 存储 起 来 很 方便 ， 程 序 8.7 使 用 一 种 策略 来 找 出 表 的 中 值 。 这 个 程 
序 用 递归 公式 表示 简单 、 易 于 理解 ， 虽 然 它 是 一 个 复杂 的 算法 。 


”| 程序 8.7” 自 项 向 下 表 归 并 排序 
该 程 序 把 指向 的 表 分 解 为 两 部 分 ， 一 部 分 由 a 指向 ， 另 一 部 分 由 b 指 向 ， 并 对 两 部 分 递归 
排序 ， 然 后 使 用 merge 得 到 最 终结 果 ， 实 现 排序 。 输 入 表 以 NULL 结 束 (b 表 也 是 以 NULL 结 束 )， 
显 式 指 令 设 置 c->next 为 NULL， 通 过 在 a 表 的 最 后 放 一 个 NULL。 
link merge(link a, link b) ; 
link mergesort (link c) 
{ link a, b; 
if (c == NULL || c->next == NULL) return c; 
a= cc; b= c->next; 
while ((b != NULL) && (b->next != NULL)) 
{c= c->next; b = b->next->next; } 
b = c->next; c->next = NULL; 
return merge (mergesort (a), mergesort (b)); 


} 


我 们 也 可 以 使 用 自 底 向 上 的 组 合 一 求解 方法 来 对 链表 进行 归并 排序 ， 虽 然 记录 链表 的 细节 
使 得 它 的 实现 更 具 挑战 性 。 如 同 我 们 在 8.3 节 中 讨论 的 自 底 向 上 基于 数组 的 方法 ， 在 开发 自 底 
向 上 的 表 归 并 排序 时 ， 没 有 必要 一 定 要 执行 递归 版 本 或 者 基于 数组 的 版 本 的 归并 和 集 。 

在 这 种 情况 下 ， 还 有 一 种 简单 的 易于 解释 的 方法 ， 并 不 难 实现 。 把 数据 项 放 在 循环 
(circle) 表 中 ， 然 后 访问 该 表 ， 把 有 序 子 文件 对 归并 为 一 个 有 序 文件 ， 直 到 只 剩 一 个 文件 。 
这 种 方法 在 概念 上 是 简单 的 ， 但 是 (如同 大 多 数 涉 及 链表 的 低级 程序 一 样 ) 实现 起 来 比较 复 
杂 ( 见 练习 8.36)。 程 序 8.8 给 出 的 另 一 种 方法 ， 是 把 所 有 待 归并 的 表 保 存在 一 个 队列 ADT 中 。 
这 种 方法 在 概念 上 也 是 简单 的 ,但 是 (如同 许多 涉及 ADT 的 高 级 程序 一 样 ) 实现 起 来 较 复杂 。 
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3 “程序 8.8 自 斋 向 十 琢 姑 并 产 记 
该 程序 使 用 队列 ADT (程序 4.18， 用 标识 符 Q 代 赫 QUEUE》 来 实现 自 床 向 上 的 归并 排序。 
队列 元 素 是 有 序 的 链表 。 初 始 化 表 长 为 1 的 队列 之 后 ， 程 序 简单 地 从 队列 中 去 除 两 个 表 ， 归 并 
这 两 个 表 ， 并 把 归并 结果 放 回 队 列 中 ， 继 续 这 一 过 程 直到 只 有 一 个 表 。 这 相应 于 对 所 有 元 素 
进行 一 个 遍历 的 序列 。 在 每 一 遍 中 ， 都 使 有 序 表 的 长 度 加 倍 ， 如 同 在 自 底 向 上 的 归并 排序 中 。 


link mergesort (link 七 ) 
{ link u; 
for (Qinit(); t != NULL; t = u) 
{u = t->next; t->next = NULL; Qput (t); } 
t = Qget(); 
while (!Qempty()) 
{ Qput(t); t = merge(Qget(), Qget ()); } 
return 七; 


} 


该 方法 的 一 种 重要 的 特性 是 ， 它 利用 了 可 能 出 现在 文件 中 的 任何 顺序 。 实 际 上 ， 对 表 进 
行 的 遍 数 不 是 [lgN1， 而 是 [gS]， 其 中 5 为 原 数组 中 有 序 子 文件 的 个 数 。 这 种 方法 有 时 称 为 自 
然 归并 排序 。 对 于 随机 文件 ， 这 种 方法 没有 大 的 优势 ， 因 为 只 可 能 节省 一 遍 到 两 遍 (实际 上 ， 
这 种 方法 很 可 能 要 比 自 项 向 下 的 方法 还 慢 ， 因 为 检查 文件 的 顺序 需要 开销 ) ， 但 对 于 含有 有 序 
子 文件 的 块 ， 它 并 不 罕见 。 在 这 种 情况 下 ， 这 种 方法 是 高 效 的 。 
练习 

“8.33 ”开发 一 个 自 顶 向 下 表 归 并 排序 的 实现 ， 它 以 链表 长 度 作 为 递归 过 程 的 参数 ， 并 使 用 该 
长 度 决 定 如 何 分 裂 链表 。 

“8.34 开发 一 个 自 顶 向 下 表 归 并 排序 的 实现 ， 它 把 链表 长 度 放 在 头 节点 中 ， 并 使 用 该 长 度 决 
定 如 何 分 裂 链表 。 

8.35 在 程序 8.7? 中 ， 对 小 的 子 文 件 增加 一 个 中 断 。 确 定 选 择 合适 的 中 断 值 ， 以 使 程序 加 速 。 

28.36 使 用 正文 中 描述 的 循环 链表 实现 自 底 向 上 的 归并 排序 。 

8.37 在 练习 8.36 的 使 用 循环 链表 实现 的 自 底 向 上 的 归并 排序 程序 中 ， 增 加 对 小 子 文件 的 中 
断 。 确 定 选择 合适 的 中 断 值 ， 以 使 程序 加 速 。 
8.38 ”在 程序 8.8 中 增加 对 小 子 文件 的 中 断 。 确 定 选择 合适 的 中 断 值 ， 以 使 程序 加 速 。 

58.39 画 出 能 够 概述 程序 8.8 所 进行 的 归并 过 程 的 合 治 树 ，N = 16，24，31，32，33 和 39。 
8.40” 画 出 能 够 概述 循环 链表 归并 排序 (练习 8.38) 所 进行 的 归并 过 程 的 合 治 树 , N = 16，24， 
31，32，33 和 39。 

8.41 对 包含 N 个 随机 的 32 位 整数 文件 中 已 排 好 的 子 文件 数目 进行 研究 。 

“8.42 ”对 随机 的 包含 64 位 关键 字 的 文件 进行 自然 归并 排序 ， 当 N = 10 ，10`，10 和 10“ 时 ， 判 
断 所 要 运行 的 遍 数 。 提 示 : 完成 该 练习 不 需要 执行 排序 算法 (其 至 不 需要 完整 的 生成 64 位 关 
键 字 ) 。 

“8.43 ”把 程序 8.8 转 换 成 自然 的 归并 排序 ， 初 始 化 时 将 输入 文件 中 出 现 的 有 序 子 文件 组 成 序列 。 

08.44 ”实现 基于 数组 的 自然 归并 排序 。 


8.8 改进 的 递归 过 程 
本 章 的 程序 以 及 上 一 章 中 的 快速 排序 是 分 治 法 的 典型 实现 。 在 后 面 的 章节 中 我 们 会 看 到 
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有 具有 类 似 结构 的 几 个 算法 ， 因 而 值得 对 这 些 实现 的 基本 特征 进行 详细 的 研究 。 

快速 排序 更 合适 称 为 分 治 算法 ， 在 一 个 递归 实现 中 ， 大 多 数 工作 是 在 递归 调用 之 前 完成 
的 。 而 递归 归并 排序 的 本 质 是 分 治 法 : 首先 ， 文 件 被 分 成 两 部 分 ， 然 后 分 别 解决 每 一 部 分 。 
归并 排序 处 理 的 第 一 个 问题 是 一 个 小 问题 ， 结 束 时 处 理 最 大 的 子 文件 。 快 速 排序 从 处 理 最 大 
的 子 文件 开始 ， 以 处 理 最 小 的 子 文件 结束 。 在 本 章 开 始 时 提 到 的 管理 上 的 类 比 性 ， 来 比较 这 
两 种 方法 是 很 有 趣 的 : 快速 排序 对 应 每 个 管理 者 要 付出 努力 做 出 正确 决策 进行 任务 划分 ， 因 
而 在 子 任务 完成 后 任务 才 完 成 。 而 归并 排序 对 应 每 个 管理 者 做 出 快速 任意 的 决策 ， 把 任务 分 
半 ， 然 后 在 子 任务 完成 后 ， 需 要 合并 结果 。 

在 这 两 种 方法 的 非 递归 实现 中 ， 差 异 是 很 明显 的 。 快 速 排序 必须 使 用 栈 ， 因 为 它 保 存 了 
大 的 子 问 题 ， 然 后 根据 数据 的 情况 进行 分 解 。 归 并 排序 可 以 有 非 递 归程 序 ， 因 为 它 划 分 文件 
的 方式 与 数据 无 关 ， 因 而 我 们 可 以 通过 重 排 对 子 问题 的 处 理 顺 序 ， 来 得 到 更 简单 的 程序 。 

对 于 快速 排序 ， 更 自然 的 是 将 它 看 作 一 个 自 顶 向 下 的 算法 ， 因 为 它 从 递归 树 的 顶端 开始 ， 
接着 向 下 处 理 直 到 完成 整个 排序 。 我 们 可 以 设计 一 个 非 递 归 的 快速 排序 过 程 ， 使 它 按 照 从 上 
到 下 的 层次 顺序 来 遍历 递归 树 。 因 此 ， 排 序 可 以 在 数组 中 进行 很 多 遍 ， 把 文件 分 成 更 小 的 子 
文件 。 对 于 数组 ， 这 种 方法 是 不 切实 际 的 ， 因 为 记录 子 文件 需要 一 定 的 开销 ， 而 对 于 链表 ， 
则 类 似 于 自 底 向 上 的 归并 排序 。 

我 们 注意 到 归并 排序 和 快速 排序 在 稳定 性 方面 有 所 不 同 。 对 于 归并 排序 ， 如 果 我 们 假设 
子 文件 已 经 稳定 地 排 好 序 ， 那 么 我 们 只 需要 确信 进行 稳定 归并 过 程 ， 这 是 容易 做 到 的 。 算 法 
的 递归 结构 可 以 归纳 得 出 它 的 稳定 性 。 对 于 基于 数组 的 快速 排序 实现 ， 将 数组 进行 稳定 的 划 
分 是 不 容易 的 ， 因 而 在 执行 递归 之 前 ， 稳 定性 已 经 被 破坏 。 然 而 ， 对 链表 进行 的 直接 快速 排 
序 是 稳定 的 〈 参 看 练习 7.4) 。 

如 我 们 在 第 5 章 所 看 见 的， 包含 一 个 递归 调用 的 算法 通常 可 以 简化 成 一 个 循环 过 程 ， 但 包 
含 两 个 递归 调用 的 算法 ， 像 归并 排序 和 快速 排序 ， 使 用 分 治 算法 和 树 结构 ， 很 多 最 好 的 算法 
都 使 用 这 种 方式 。 归 并 排序 和 快速 排序 值得 仔细 的 研究 ， 不 仅 因为 它们 重要 的 实用 价值 ， 还 
因为 它们 本 身 具 有 的 递归 特性 ， 使 我 们 可 以 更 好 地 研究 和 理解 其 他 递归 算法 。 
练习 
。8.45 ”假设 归并 排序 将 文件 按 随机 方式 进行 划分 ， 而 不 是 恰好 平分 。 使 用 这 样 的 方法 对 包含 N 
个 元 素 的 文件 进行 排序 ， 平 均 需要 使 用 多 少 次 比较 ? 

“8.46 研究 使 用 归并 排序 算法 对 字符 串 操作 的 情况 。 对 大 文件 进行 排序 时 ， 平 均 需 要 进行 多 
少 次 比较 ? 

“8.47 ”比较 对 链表 进行 快速 排序 〈 见 练习 7.4) 和 对 链表 进行 自 顶 向 下 归并 排序 ( 见 程序 8.7) 
的 情况 。 
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许多 应 用 问题 要 求 我 们 按照 关键 字 的 次 序 来 处 理 记 录 ， 但 关键 字 不 需要 完全 有 序 或 一 次 
全 部 有 序 。 通 常 ， 我 们 处 理 一 个 记录 集 ， 然 后 处 理 关 键 字 最 大 的 一 个 记录 ， 接 着 可 能 加 入 更 
多 的 记录 ， 然 后 处 理 当 前 关键 字 最 大 的 记录 …… 在 这 样 的 环境 下 ， 有 一 种 数据 结构 支持 插入 
新 元 素 和 删除 最 大 元 素 的 操作 。 这 样 的 数据 结构 称 为 优先 队列 。 使 用 优先 队列 类 似 于 使 用 队 
列 (先进 先 出 ) 和 栈 (后 进 先 出 )， 但 是 高 效 实现 它们 更 具 挑 战 性 。 优 先 队列 是 我 们 在 4.6 节 
讨论 的 广义 队列 ADT 最 重要 的 例子 。 实 际 上 ， 优 先 队 列 是 栈 和 队列 的 推广 ， 因 为 我 们 可 以 通 
过 设置 合适 的 优先 级 ， 使 用 优先 队列 来 实现 这 些 数据 结构 〈 见 练习 9.3 和 练习 9.4) 。 

定义 9.1 ”优先 队列 是 一 种 数据 结构 ， 其 数据 项 中 带 有 关键 字 ， 它 支持 两 种 基本 操作 : 向 
优先 队列 中 插入 一 个 新 的 数据 项 ， 人 删除 优先 队列 中 关键 字 最 大 的 数据 项 。 

优先 队列 的 应 用 包括 : 模拟 系统 一 一 其 中 关键 字 对 应 事件 的 时 间 ， 按 照 年 代 顺 序 处 理 关 
键 字 ， 计 算 机 系统 中 的 作业 调度 其 中 关键 字 对 应 用 户 被 服务 的 优先 级 ， 数 值 计 算 一 一 关 
键 字 对 应 计算 误差 ， 最 大 的 误差 应 优先 处 理 。 

我 们 可 以 使 用 优先 队列 作为 排序 算法 的 基础 。 先 插入 所 有 的 记录 ， 然 后 逐个 去 除 最 大 元 
素来 得 到 逆序 的 记录 。 这 本 书 的 后 面 ， 我 们 将 会 看 到 如 何 使 用 优先 队列 作为 更 高 级 算法 的 积 
木 块 。 在 第 5 部 分 ， 我 们 将 使 用 本 章 的 子 例 程 开发 文件 压缩 算法 ， 在 第 7 部 分 ， 我 们 将 看 到 优 
先 队 列 作为 一 种 抽象 ， 来 帮助 我 们 更 好 地 理解 几 个 基本 的 图 查找 算法 。 这 是 优先 队列 作为 算 
法 设计 基本 工具 发 挥 重要 作用 的 几 个 例子 。 

实际 上 ， 优 先 队列 要 比 刚 才 给 出 的 定义 更 复杂 ， 因 为 还 有 几 个 需要 执行 的 操作 ， 这 些 操 
作用 来 维持 使 用 优先 队列 时 所 需 的 一 些 条 件 要 求 。 当 然 ， 使 用 优先 队列 的 主要 原因 之 一 是 它 
们 具有 很 好 的 灵活 性 ， 可 使 客户 程序 在 包含 关键 字 的 记录 上 执行 各 种 操作 。 我 们 希望 构建 并 
维持 的 数据 结构 ， 它 包含 数值 关键 字 的 记录 ， 支 持 下 列 操作 : 

。 根据 N 个 数据 项 构造 一 个 优先 队列 。 

。 插 入 一 个 数据 项 。 

。 删 除 最 大 值 的 数据 项 。 

。 改 变 任意 给 定 的 数据 项 的 优先 级 。 

。 删除 任意 给 定 的 数据 项 。 

。 把 两 个 优先 队列 合并 为 一 个 大 的 优先 队列 。 

如 果 记 录 中 有 重复 关键 字 ， 我 们 取 “ 最 大 ”的 意思 是 取 “ 含 有 最 大 关键 字 值 的 记录 ”。 如 
同 许多 数据 结构 ， 我 们 也 需要 给 这 个 集合 添加 标准 的 初始 化 、 测 试 是 否 为 室 和 销毁 及 复制 
操作 。 

这 些 操作 之 间 有 重合 ， 有 了 时 定义 其 他 的 类 似 操作 更 方便 。 例 如 ， 某 些 客 户 可 能 需要 频繁 
地 在 优先 队列 中 执行 找 最 大 find the maximum) 数据 项 的 操作 ， 而 不 删除 它 。 或 者 我 们 可 能 
执行 用 一 个 新 的 数据 项 替换 最 大 (replace the maximum) 数据 项 的 操作 。 我 们 可 以 使 用 用 作 
积木 块 的 两 个 基本 操作 来 实现 这 些 操作 : find the maximum 操 作 可 以 先 执行 delete the 
maximum 操 作 ， 然 后 执行 insert 操 作 ，replace the maximum 操 作 可 以 先 执行 insert， 然 后 执行 
delete the maximum 或 者 先 执行 delete the maximum 操 作 ， 然 后 执行 insert 操 作 。 然 而 我 们 通常 
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直接 实现 这 些 代 码 ， 得 到 更 高 效 的 代码 ， 如 果 需 要 且 定 义 明确 。 精 确 规范 并 不 总 是 像 它 看 上 
去 的 那么 直接 。 例 如 ， 对 于 刚才 给 出 的 replace the maximum 的 两 种 选择 绝 然 不 同 ， 前 者 总 是 
使 优先 队列 暂时 增加 一 个 新 的 数据 项 ， 后 者 总 是 把 新 数据 项 放 到 队列 中 。 类 似 地 ，change 
priority 操 作 可 用 delete 操 作 后 跟 一 个 insert 来 实现 。construct 可 用 反复 执行 insert 来 实现 。 

对 于 某 些 应 用 ， 可 能 是 用 最 小 优先 队列 更 方便 ， 而 不 是 使 用 最 大 优先 队列 。 我 们 主要 使 
用 最 大 优先 队列 。 当 需要 另 一 种 类 型 的 优先 队列 时 ， 我 们 会 说 明 使 用 最 小 优先 队列 〈 使 我 们 
可 以 执行 delete minimum 数 据 项 的 优先 队列 ) 。 

优先 队列 是 一 种 原型 的 抽象 数据 类 型 (ADT) ( 见 第 4 章 ): 它 表 示 一 种 良 定义 的 对 数据 的 
操作 集 ， 提 供 了 一 种 方便 的 抽象 ， 使 得 我 们 可 以 把 应 用 程序 (客户 ) 从 本 章 将 要 讨论 的 各 种 
实现 中 分 离 出 来 。 程 序 9.1 中 给 出 的 接口 定义 了 最 基本 的 优先 队列 操作 ， 我 们 在 9.5 节 将 考虑 一 
种 更 复杂 的 接口 。 严 格 来 讲 ， 我 们 所 包含 的 各 种 操作 的 不 同 子 集 可 以 得 到 不 同 的 抽象 数据 结 
构 ， 但 是 优先 队列 中 的 基本 操作 有 delete-the-maximum 操 作 和 insert 操 作 ， 我 们 主要 讨论 这 两 
种 操作 。 


程序 9.1 基本 优先 队列 ADT 1 

这 个 接口 定义 了 最 简单 优先 队列 的 操作 ， 初始 化 、 测 试 队列 是 否 为 空 、 插 入 一 个 新 的 数 
据 项 以 及 删除 最 大 数据 项 。 这 些 基本 函数 的 实现 使 用 了 数组 和 链表 ， 在 最 坏 情况 下 的 时 间 为 
线性 时 间 ， 但 我 们 将 在 本 章 看 到 可 用 于 队列 中 的 数据 项 数 成 对 数 时 间 的 所 有 操作 。 PQinit 指 
定 队列 中 期 望 的 最 大 数据 项 数 。 

void PQinit(int) ; 

int PQempty() ; 

void PQinsert (Item); 

Item PQdelmax() ; 


优先 队列 的 不 同 实现 对 于 要 执行 的 各 种 操作 具有 不 同 的 性 能 特征 。 不 同 的 应 用 问题 需要 
高 效 的 不 同 操作 和 集 的 性 能 。 实 际 上 ， 原 理 上 性 能 差异 是 抽象 数据 类 型 所 造成 的 惟一 差异 。 这 
种 情况 导致 开销 权衡 。 在 这 一 章 里 ， 我 们 考虑 大 量 接 近 这 些 开销 权衡 的 方法 ， 在 理想 情况 下 ， 
可 以 达到 用 对 数 时 间 执 行 delete the maximum 操 作 ， 用 常量 时 间 执 行 其 他 操作 。 

首先 ， 我 们 在 9.1 节 中 讨论 了 几 种 实现 优先 队列 的 基本 数据 结构 ， 来 说 明 这 个 结果 。 接 下 
来 ， 在 9.2 节 至 9.4 节 我 们 讨论 经 典 数据 结构 堆 ， 它 可 以 高 效 实现 除 join 之 外 的 所 有 操作 。 在 9.4 
节 我 们 还 讨论 一 个 重要 的 排序 算法 ， 它 可 以 按照 这 些 实现 自然 而 得 。 此 后 ， 在 9.5 节 和 9.6 节 ， 
我 们 更 详细 讨论 在 开发 复杂 优先 队列 ADT 中 涉及 的 一 些 问题 。 最 后 在 9.7 节 ， 我 们 考察 一 种 更 
高 级 的 数据 结构 ， 称 为 二 项 队列 (binomial queue) ， 使 用 这 种 数据 结构 我 们 可 以 在 最 坏 情 况 
下 的 对 数 时 间 实 现 包括 join 的 所 有 操作 。 

在 研究 各 种 数据 结构 的 过 程 中 ， 我 们 将 铭记 两 个 基本 的 权衡 策略 ， 那 就 是 链表 内 存 分 配 
和 顺序 内 存 分 配 (第 3 章 介 绍 )， 以 及 应 用 程序 所 使 用 的 软件 包 的 问题 。 特 别 是 本 书后 面 介绍 
的 一 些 高 级 算法 使 用 了 优先 队列 的 客户 程序 。 
练习 
>9.1 在 序列 中 字母 代表 插入 (insert)， 星 号 代表 删除 最 大 值 (delete the maximum ) : 


PRIO*R**I*T*Y***QUE***U*E 


给 出 删除 最 大 操作 返回 值 的 序列 。 
>9.2 在 练习 9.1 中 ,添加 “+” 号 表示 连接 (join),“ 括 号 ”表示 操作 创建 的 优先 队列 的 界限 。 


A 


着 9 更 优先 队列 和 座 排 序 。 231] 


给 出 以 下 序列 的 优先 队列 中 的 内 容 。 
(((PRIO)+(R*IT*Y*))***)+(QUE***U*E) 
09.3 解释 如 何 使 用 优先 队列 ADT 来 实现 栈 的 ADT。 
09.4 解释 如 何 使 用 优先 队列 ADT 来 实现 队列 的 ADT。 


9.1 基本 操作 的 实现 


我 们 在 第 3 章 中 讨论 的 基本 数据 结构 给 出 了 很 多 实现 优先 队列 的 方法 。 程 序 9.2 是 使 用 无 序 
数组 作为 潜在 数据 结构 的 一 种 实现 。find the maximum 操 作 是 通过 扫描 数组 找 出 最 大 元 素 ， 接 
着 将 最 大 元 素 与 最 后 元 素 交 换 ， 并 使 队列 大 小 减 1 来 实现 的 。 图 9-1 显 示 了 一 个 具体 操作 序列 
中 数组 的 内 容 。 基 本 实现 与 我 们 在 第 4 章 中 看 到 的 栈 和 队列 的 实现 (程序 4.4 和 程序 4.11) 类 似 ， 
对 于 小 的 队列 很 有 用 。 重 要 的 差别 是 性 能 上 的 差别 。 对 于 栈 和 队列 ， 我 们 能 够 在 常量 时 间 实 
现 所 有 操作 ， 对 于 优先 队列 ， 易 于 在 常量 时 间 实 现 它 的 插入 操作 或 删除 最 大 元 素 的 操作 ， 但 
要 在 常量 时 间 实 现 插入 和 删除 最 大 元 素 的 操作 是 一 项 更 困难 的 事情 ， 这 也 是 本 章 的 主题 。 
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图 9-1 优先 队列 示例 (无 序数 组 表示 ) 


注 : 这 个 序列 显示 了 对 左 列 (从 上 到 下 ) 进行 操作 的 序列 ， 字 母 表示 插入 ， 星 号 表示 删除 最 大 。 每 一 行 展示 了 
操作 、 执 行 delete the maximum 操 作 所 删除 的 字母 ， 以 及 执行 操作 语 数组 中 的 内 容 。 


et “程序 9.2 优先 队列 数组 实现 四 

这 个 实现 可 以 与 我 们 在 第 4 章 讨论 过 的 栈 和 队列 的 数组 实现 进行 比较 ( 见 程序 4.4) 。 把 记 
录 存 储 在 一 个 无 序数 组 中 。 从 数组 的 末尾 插入 和 删除 数据 项 ， 就 如 同 栈 一 样 。 

#include <stdlib.h> 

#include "Item.h" 


static Item *pq; 
static int N; 
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void PQinit(int maxN) 
{ pq = malloc (maxN*sizeof (Item)); N = 0; } 
int PQempty() 
{ return N == 0; } 
void PQinsert (Item v) 
{ pq[N++] = vi } 
Item PQdelmax() 
{ int j, max = 0; 
for (j = 1; j < N; j++) 
if (less(pq[max], pq[j])) max = j; 
exch(pq[max] , pq[N-1]); 
return pq[--N]; 
} 


我 们 可 以 使 用 无 序 序列 或 有 序 序 列 ， 作 为 链表 或 数组 的 实现 。 在 保持 数据 项 无 序 还 是 有 
序 这 之 间 所 做 的 基本 权衡 ， 若 维持 一 个 有 序 的 序列 可 允许 使 用 常量 时 间 进 行 delete the 
maximum 操 作 和 find the maximum 操 作 ， 但 插入 insert 时 可 能 要 志 历 整个 表 ， 而 无 序 序列 允许 
常量 时 间 的 插入 ， 但 要 遍历 整个 序列 执行 删除 最 大 和 找 最 大 的 操作 。 无 序 序列 是 此 问题 的 懒 
方法 ， 直 到 需要 做 时 ( 找 最 大 ) 才 做 ， 而 有 序 序 列 是 此 问题 的 良性 方法 ， 因 为 我 们 尽量 提前 
做 很 多 的 事情 (保持 表 在 插入 操作 时 的 有 序 )， 从 而 让 后 续 的 操作 更 高 效 。 任 何 情况 下 ， 我 们 
都 可 以 使 用 数组 表示 或 链表 表示 ， 并 做 出 基本 权衡 ， 双 链表 使 用 常量 时 间 进 行 删 除 ( 且 对 于 
无 序 情况 ，join 操 作为 常量 时 间 ), 但 需要 更 多 空间 存储 链表 。 

对 于 一 个 大 小 为 N 的 优先 队列 ， 不 同 操作 的 各 种 实现 在 最 坏 情 况 下 的 开销 概括 在 表 9-1 中 。 

开发 一 种 优先 队列 的 完整 实现 需要 关注 它 的 接口 ， 特 别 是 ， 客 户 程序 如 何 访问 节点 进行 
删除 和 改变 优先 级 的 操作 ， 如 何 把 自身 作为 数据 类 型 访问 优先 队列 以 进行 连接 操作 。 在 9.4 节 
和 9.7 节 讨论 这 些 问题 ， 并 给 出 了 两 种 优先 队列 的 完整 实现 : 一 种 是 使 用 双向 无 序 链表 实现 ， 
另 一 种 使 用 二 项 队列 实现 。 


表 9-1 优先 队列 操作 最 坏 情 况 下 的 开销 


优先 队列 ADT 的 实现 在 性 能 上 有 很 大 不 同 ， 如 下 表 中 显示 的 各 种 方法 最 坏 情 况 下 的 运行 时 间 〈 对 于 较 大 的 N， 
其 中 含有 一 个 常量 因子 )。 共 本 方法 (前 4 行 ) 的 某 些 操 作 需 要 常量 时 间 ， 其 他 一 些 操 作 是 线性 时 间 ， 高 级 方法 的 大 
多 数 操作 有 可 保证 的 对 数 时 间或 常量 时 间 。 


insert delete maximum delete find maximum change priority join 
有 序数 组 N 1 N 1 N N 
有 序 表 N 1 1 1 N N 
无 序数 组 1 N 1 N 1 N 
无 序 表 1 N 1 N 1 1 
堆 lgN lgN lgN 1 lgN N 
二 项 队列 lgN lgN lgN lg N lgN lg N 
理论 上 最 佳 值 1 lgN lgN 1 1 1 


使 用 优先 队列 的 客户 程序 的 运行 时 间 不 仅 与 关键 字 有 关 ， 而 且 与 使 用 的 各 种 操作 有 关 。 
在 实际 应 用 中 ， 谨 记 使 用 简单 实现 ， 因 为 它们 常常 胜 过 更 复杂 方法 。 例 如 ， 对 于 只 进行 少量 
delete the maximum 操 作 的 应 用 问题 ， 使 用 无 序 表 的 实现 更 合适 ， 因 为 不 需 面 对 大 量 插 入 操作 。 
如 果 要 进行 大 量 find the maximum 操 作 ， 或 者 所 插入 的 数据 项 要 比 优先 队列 中 的 数据 项 大 ， 使 
用 有 序 表 更 合适 。 
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练习 

9.5 评论 以 下 想法 : 要 在 常量 时 间 内 实现 find the maximum 操 作 ， 为 什么 不 保存 到 目前 为 止 
插入 的 最 大 值 ， 然 后 作为 find the maximum 的 返回 值 ? 

>9.6 给 出 执行 图 9-1 描 述 的 操作 序列 后 数组 中 的 内 容 。 

9.7 ”使 用 一 个 有 序数 组 作为 底层 数据 结构 ， 给 出 基本 优先 队列 接口 的 一 种 实现 。 

9.8 使 用 一 个 无 序 链表 作为 底层 数据 结构 ， 给 出 基本 优先 队列 接口 的 一 种 实现 。 提 示 : 参考 
程序 4.5 和 程序 4.10。 

9.9 ”使 用 一 个 有 序 链 表 作 为 底层 数据 结构 ， 给 出 基本 优先 队列 接口 的 一 种 实现 。 提 示 : 参考 
程序 3.11。 

09.10 考虑 “ 懒 ”(lazy) 实现 ， 其 中 仅 当 执行 delete the maximum 或 find the maximum 操 作 时 ， 
链表 是 有 序 的 。 插 入 操作 从 上 一 次 排序 就 被 保存 在 另 一 个 链表 里 ， 然 后 在 需要 的 时 候 排序 与 
归并 。 讨 论 基于 无 序 表 和 有 序 表 的 这 样 实现 时 的 优点 。 

“9.11 ”编写 一 个 性 能 驱动 客户 程序 ， 执 行 PQinsert 填 充 优先 队列 ， 接 着 执行 Pade1max 删 除 一 
半 的 关键 字 ， 然 后 再 执行 PQinsert 填 充 优 先 队 列 ， 执 行 PQde1lmax 删 除 所 有 关键 字 ， 对 长 短 不 
一 的 随机 序列 执行 多 次 这 些 操作 ， 度 量 每 次 运行 的 时 间 ， 打 印 或 画 出 平均 运行 时 间 。 

*9.12 编写 一 个 性 能 驱动 客户 程序 ， 执 行 PQinsert 填 充 优先 队列 ， 接 着 在 1 秒 内 执行 尽 可 能 多 
的 PQdelmax 操 作 和 PQinsert 操 作 。 对 长 短 不 一 的 随机 序列 执行 多 次 这 些 操 作 ， 打 印 或 画 出 所 
能 执行 的 Pade1max 操 作 的 平均 次 数 。 

9.13 ”使 用 练习 9.12 的 客户 程序 ， 将 程序 9.2 中 无 序数 组 实现 与 练习 9.8 中 的 无 序 链表 实现 进行 
比较 。 

9.14 ”使 用 练习 9.12 的 客户 程序 ， 将 练习 9.7 和 9.9 中 的 基于 数组 的 实现 和 基于 链表 的 实现 进行 
比较 。 

*9.15 ”编写 一 个 练习 驱动 客户 程序 ， 在 实际 应 用 程序 可 能 遇 到 的 困难 和 病态 情况 下 使 用 我 们 
程序 9.1 中 优先 队列 接口 的 函数 。 简 单 的 例子 包括 关键 字 已 经 有 序 、 逆 序 、 所 有 关键 字 相 同和 
序列 里 的 关键 字 只 有 两 个 值 。 

9.16 (本 练习 看 上 去 是 24 个 练习 ) 证 明 表 9-1 给 出 的 四 种 基本 实现 的 最 坏 情 况 下 的 界限 ， 参 考 
程序 9.2、 练 习 9.7 到 练习 9.9 执 行 insert 操 作 和 delete the maximum 操 作 的 实现 ， 非 形式 地 描述 其 
他 几 个 操作 的 方法 。 对 于 delete 操 作 ，change priority 以 及 join， 假 设 你 有 办 法 可 以 直接 访问 某 
个 位 置 。 


9.2 ” 堆 数 据 结构 


本 章 主要 的 主题 是 称 为 堆 的 简单 数据 结构 。 它 能 高 效 地 支持 基本 优先 队列 的 操作 。 在 一 
个 堆 中 ,记录 存 在 数组 中 ， 满 足 每 个 关键 字 必 定 比 在 其 他 两 个 指定 位 置 上 的 关键 字 要 大 。 依 
次 地 ， 这 些 关键 字 中 的 每 个 关键 字 都 会 大 于 另 两 个 关键 字 ， 以 此 类 推 。 由 此 次 序 可 得 ， 如 果 
我 们 把 关键 字 看 作 二 又 树 结构 ， 其 中 每 个 关键 字 都 有 两 条 边 指 向 比 它 更 小 的 已 知 关键 字 。 

定义 9.2 ”如 果 一 棵 树 中 每 个 节点 的 关键 字 都 大 于 或 等 于 所 有 子 节点 中 的 关键 字 〈 如 果子 
节点 存在 ) ， 就 称 树 是 堆 有 序 的 。 同 样 地 ， 一 棵 堆 有 序 树 中 节点 的 关键 字 小 于 等 于 那个 节点 父 
节点 的 关键 字 (如 果 父 节点 存在 ) 。 

性 质 9.1 在 一 棵 堆 有 序 树 中 ， 不 存在 关键 字 大 于 根 节 点 关键 字 的 节点 。 

我 们 可 以 对 任何 一 棵 树 增加 堆 有 序 的 限制 。 使 用 一 棵 完全 二 叉 树 却 更 方便 。 在 第 3 章 中 我 
们 可 以 画 出 一 棵 这 样 结构 的 树 ， 先 画 出 根 节 点 ， 接 着 从 上 到 下 ， 从 左 到 右 进行 这 个 过 程 ， 把 


234 荣 三 部 分 排 序 


下 层 的 两 个 节点 与 上 层 的 父 节点 连接 起 来 ， 直 到 所 有 N 个 节点 都 已 放 好 位 置 。 我 们 可 以 用 数组 


把 完全 二 又 树 顺序 地 表示 出 来 ， 只 要 简单 把 
根 节点 放 在 数组 中 的 位 置 !， 它 的 子 节点 放 
在 位 置 2 和 位 置 3， 再 下 一 层 的 节点 放 在 位 置 
4， 位 置 5， 位 置 6 和 位 置 7， 依 次 类 推 。 如 图 
9-2 所 示 。 

定义 9.3 堆 是 一 个 节点 的 集合 ， 表 示 为 
数组 ， 其 中 关键 字 按 照 堆 有 序 的 完全 二 又 树 
的 形式 排列 。 

我 们 可 以 使 用 链表 来 表示 堆 有 序 的 树 ， 
但 完全 二 又 树 给 了 我 们 使 用 压缩 数组 表示 的 
一 个 机 会 ， 我 们 可 以 容易 地 从 一 个 节点 得 到 
它 的 父 节 点 ， 它 的 子 节点 ， 而 不 需 维 持 明确 
的 链接 。 在 位 置 ; 处 节点 的 父 节 点 的 位 置 
为 Li/2j], 两 个 子 节 点 的 位 置 分 别 为 2; 和 12i+1。 
比 起 链表 表示 来 实现 树 ， 这 种 安排 方式 使 得 





图 9-2 堆 有 序 的 完全 二 又 树 的 数组 表示 


注 : 考虑 数组 中 位 置 ? 处 的 父 节 点 位 置 [22j 处 的 元 素 ， 


2 和 isN (或 等 价 于 ， 考 虑 第 i 个 元 素 为 第 25 和 2i 计 1 个 
元 素 的 父 节 点 ) ， 对 应 把 元 素 表示 为 树 。 这 种 对 应 关 
系 等 价 于 在 完全 二 又 树 中 对 节点 按 层 序 编号 〈 最 低 一 
层 的 节点 尽 可 能 靠 左 )。 如 果 任 何 给 定 节 点 的 关键 字 
大 于 或 等 于 那个 节点 子 节点 的 关键 字 ， 则 树 是 堆 有 序 
的 。 堆 就 是 完全 堆 有 序 的 二 又 树 的 数组 表示 。 推 中 第 ; 
个 元 素 大 于 或 等 于 第 21 个 元 素 和 第 2 计 1 个 元 素 。 


对 树 的 遍历 更 简单 。 因 为 在 链表 表示 中 ， 每 
个 关键 字 和 需要 关联 三 个 链接 ， 使 其 可 以 在 树 的 上 下 进行 遍历 (每 个 元 素 有 一 个 指向 父 节 点 的 
指针 ， 还 有 两 个 指向 子 节点 的 指针 )。 虽 然 把 完全 二 叉 树 表示 为 数组 是 非常 严格 的 结构 ， 但 它 
们 还 是 有 足够 的 灵活 性 ， 来 实现 高 效 的 优先 队列 算法 。 

在 9.3 节 中 ， 我 们 将 看 到 使 用 堆 可 以 实现 优先 队列 的 除 join 外 的 所 有 操作 ， 这 些 操作 最 坏 
情况 下 的 时 间 为 对 数 时 间 。 所 有 操作 的 实现 是 沿 着 堆 内 的 某 条 路 径 〈 从 父 节 点 到 子 节点 向 下 ， 
或 从 子 节 点 到 父 节点 向 上 ， 但 方向 不 会 改变 )。 如 在 第 3 章 中 所 讨论 的 ，N 个 节点 的 完全 二 又 树 
中 的 每 条 路 径 约 有 1g N 个 节点 ， 最 底 一 层 约 有 N/2 个 节点 ， 有 子 节点 的 最 低层 约 有 N/4 个 节点 ， 
有 孙子 节点 的 最 低层 约 有 N/8 个 节点 ,以 此 类 推 。 每 一 代 节 点 数 大 约 是 下 一 代 的 节点 数 的 一 半 ， 
至 多 有 lg N 代 。 

我 们 也 可 以 使 用 明确 的 链表 来 表示 树 结构 ， 以 开发 优先 队列 操作 的 高 效 实现 。 例 子 有 三 
链 堆 有 序 的 完全 树 ( 见 9.5 节 )， 联 赛 ( 见 程序 5.19) ， 以 及 二 项 队列 ( 见 9.7 节 )。 至 于 简单 栈 
和 队列 ， 考 虑 链 式 结构 的 一 个 重要 原因 是 我 们 可 以 预先 知道 队列 的 最 大 值 ， 就 像 用 数组 表示 
一 样 。 在 某 种 情况 下 ， 我 们 也 可 以 使 用 链表 结构 的 灵活 性 来 开发 高 效 的 算法 。 没 有 使 用 明 
确 树 结构 经 验 的 读者 可 以 阅读 第 12 章 ， 学 习 基 本 方法 其 至 是 学 习 更 重要 的 符号 表 ADT 的 实 
现 ， 然 后 再 来 处 理 本 章 和 9.7 节 的 练习 中 讨论 的 树 链表 表示 方法 。 然 而 ， 对 链表 结构 的 仔细 考 
虚 可 以 放 到 第 二 遍 阅 读 时 再 进行 ， 因 为 本 章 主要 的 主题 是 堆 ( 堆 有 序 的 完全 二 又 树 的 无 链 数 
组 表示 ) 。 
练习 
>9.17 ”按照 降序 排列 的 数组 是 一 个 堆 吗 ? 

09.18 ” 堆 中 的 最 大 元 素 必定 在 位 置 1， 第 二 个 最 大 元 素 必定 在 位 置 2 或 位 置 3。 给 出 第 k 个 最 大 
元 素 在 大 小 为 15 的 堆 中 的 位 置 列表 : (i) 可 能 出 现 ， (ii) 不 可 能 出 现 , K = 2，3，4 (假设 元 
素 值 不 同 ) 。 

。9.19 ”对 于 任意 k， 已 知 堆 大 小 为 NY， 回 答 练习 9.18， 结 果 为 N 的 泛 数 。 

。9.20 ”对 于 第 k 个 最 小 元 素 ， 回 答 练习 9.18 和 练习 9.19。 
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9.3 ”基于 堆 的 算法 


基于 堆 的 优先 队列 都 是 先 做 一 点 简单 的 修改 ， 可 以 侵犯 堆 的 条 件 ， 然 后 通过 遍历 堆 ， 在 
需要 的 时 候 修 改 堆 使 其 满足 堆 的 条 件 。 有 时 把 这 个 过 程 称 为 堆 化 或 只 是 修正 堆 。 有 两 种 情况 
需要 对 堆 进行 修正 。 当 某 个 节点 的 优先 级 增加 时 (或 新 的 节点 被 添加 到 堆 底 时 ) ， 我 们 必须 向 
上 遍历 堆 以 恢复 堆 的 条 件 。 当 某 个 节点 的 优先 级 降低 时 〈 例 如 ， 如 果 我 们 用 一 个 新 节点 代替 
根 节 点 时 ) ， 我 们 必须 向 下 遍历 堆 以 恢复 堆 
的 条 件 。 首 先 ， 我 们 考虑 如 何 实现 这 两 个 基 
本 的 函数 ， 然 后 我 们 再 看 如 何 使 用 它们 来 实 
现 各 种 优先 队列 的 操作 。 

如 果 由 于 一 个 节点 的 关键 字 大 于 那个 节 
点 父 节 点 的 关键 字 ， 堆 的 性 质 受到 侵犯 ， 那 
么 我 们 可 以 交换 该 节点 与 它 的 父 市 点 来 修正 
堆 。 交 换 之 后 ， 节 点 大 于 它 的 两 个 子 节点 
(一 个 是 原 父 节 点 ， 另 一 个 小 于 原 父 节点 ， 
因为 它 是 那个 父 节 点 的 子 节 点 ) ， 但 可 能 仍 





图 9-3 自 底 向 上 堆 化 
会 大 于 它 的 父 节 点 。 我 们 可 以 用 同样 的 方法 。 注 ， 除了 底层 的 节点 T， 上 方 所 描述 的 树 是 一 根 堆 有 序 的 


修正 它 ， 以 此 类 推 。 沿 堆 向 上 进行 ， 直 到 到 
太一 个 较 大 关键 字 的 节点 ,或 者 到 达 根 节点 。 
图 9-3 显 示 了 这 个 过 程 的 一 个 例子 。 因 为 堆 
中 位 置 k 处 节点 的 父 节 点 的 位 置 为 K/2， 代 码 
很 直接 。 程 序 9.3 通 过 在 堆 中 向 上 的 一 个 过 
程 ， 对 在 增加 堆 中 某 个 给 定 节 点 的 优先 级 时 


树 。 如 果 我 们 交换 T 与 它 的 父 节 点 ， 且 TT 不 比 它 的 新 父 
节点 大 ， 则 树 是 堆 有 序 的 。 继 续 交 挽 T 与 其 父 节点 的 
过 程 ， 直 到 遇 到 根 节 点 ， 或 遇 到 从 T 到 根 的 路 径 上 的 
一 个 大 于 T 的 节点 ， 对 于 整 棵 树 我 们 可 以 确定 堆 的 条 
件 。 我 们 可 以 使 用 这 个 过 程 作 为 基本 操作 ， 进 行 堆 上 
的 插入 操作 ， 在 向 堆 中 (底层 最 右 端 的 位 置 ， 如 果 需 
要 从 下 一 个 新 层 开 始 ) 添加 一 个 新 的 元 素 时 ， 来 重新 
确立 堆 的 条 件 。 


可 能 侵犯 堆 性 质 进行 修正 的 函数 的 实现 。 
程序 9.3” 自 底 向 土 堆 化 
在 增加 一 个 节点 的 优先 级 时 ， 为 了 恢复 堆 的 条 件 ， 我 们 在 堆 中 向 上 移动 ， 需 要 时 交换 位 
置 k 处 的 节点 与 其 父 节 点 (位 置 k/2)， 只 要 a[k/2] < af[k] 就 继续 这 一 过 程 ， 或 到 达 堆 顶 。 


fixUp(Item a[], int k) 


while (k > 1 && less(a[lk/2], a[k])) 
{ exch(a[k], a[lk/2]); k = k/2; } 
} 


如 果 由 于 节点 的 关键 字 比 它 的 一 个 或 两 个 子 节 点 的 关键 字 要 小 ， 使 堆 性 质 受 到 侵犯 ， 那 
么 我 们 可 以 交换 该 节 点 与 它 的 较 大 的 一 个 子 节 点 ， 来 修正 这 个 侵犯 。 这 种 交换 可 能 会 引起 子 
节点 不 满足 堆 的 性 质 ， 我 们 可 以 使 用 同样 的 方法 修正 它 ， 以 此 类 推 。 在 堆 中 向 下 进行 ， 直 到 
到 达 一 个 其 两 个 子 节 点 都 小 的 节点 ， 或 到 达 堆 底 。 图 9-4 显 示 了 这 个 过 程 的 一 个 例子 。 代 码 再 
次 直接 由 事实 ， 堆 中 位 置 k 处 节点 的 子 节点 的 位 置 为 2 和 2K+1 而 得 。 程 序 9.4 通 过 在 堆 中 向 下 
移 的 一 个 过 程 ， 对 在 堆 中 增加 某 个 给 定 节 点 的 优先 级 时 可 能 侵犯 堆 性 质 进行 修正 的 函数 的 实 
现 。 这 个 函数 需要 知道 堆 的 大 小 〈N) ， 以 便 能 够 测试 它 何 时 到 达 了 堆 底 。 
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: “4 自 项 向 下 堆 化 ny 
在 降低 一 个 节点 的 优先 级 时 ， 为 了 恢复 堆 的 条 件 ， 我 们 在 堆 中 向 下 移动 ， 需 要 时 交换 位 
置 k 处 的 节点 与 其 子 节点 中 较 大 的 一 个 节点 ， 如 果 在 k 处 的 节点 不 小 于 它 的 任何 一 个 子 节点 ， 
或 到 达 树 底 ， 则 停止 这 一 过 程 。 注 意 ， 如 果 N 是 侦 数 ，K 为 N/2， 那 么 k 处 的 节点 只 有 一 个 子 节 
点 ， 必 须 准确 处 理 这 种 情况 。 
这 个 程序 中 的 内 循环 有 两 个 不 同 的 出 口 ， 一 个 是 到 达 堆 底 的 情况 ， 另 一 是 在 堆 内 的 某 处 ， 
满足 了 堆 的 条 件 。 这 是 一 个 需要 break 构 造 的 原型 例子 。 


fixDown(Item a[], int k, int N) 


{ int j; 
while (2*k <= N) 
{ j= 2*k; 


if (j < N && less(a[j], a[lj+1])) j++; 
if (!less(a[k], a[j])) break; 
exch(a[k], a[j]); k = j; 

} 








图 9-4 自 顶 向 下 堆 化 


注 : 上 方 所 描述 的 树 除根 节点 外 是 一 翰 堆 有 序 的 树 。 如 果 我 们 交换 0 与 其 子 节点 中 较 大 者 (X) ， 除 了 以 O 为 根 
的 子 树 外 ， 树 就 变 成 了 堆 有 序 的 。 继 续 交 换 D 与 其 子 节点 中 较 大 者 的 过 程 ， 直 到 到 达 堆 底 ， 或 者 到 达 O 大 于 
共 于 节点 的 那个 节点 ， 此 时 确定 了 整 棵 树 的 淮 有 序 的 条 件 。 我 们 可 以 使 用 这 个 过 程 作为 在 堆 上 执行 “删除 
最 大 值 ”操作 的 基础 ， 在 用 底层 最 右边 的 关键 字 代 替 根 节点 的 关键 字 后 重新 建立 堆 的 条 件 。 
这 两 种 操作 独立 于 树 结构 的 表示 方式 ， 它 们 都 能 够 (按照 自 底 向 上 的 方式 ) 访问 任何 布 
点 的 父 节 点 和 (按照 自 顶 向 下 的 方式 ) 访问 任何 节点 的 子 节点 。 对 于 自 底 向 上 的 方法 ， 我 们 
向 树 的 上 面 移动 ， 交 换 给 定 节点 的 关键 字 与 其 父 节 点 的 关键 字 ， 直 到 到 达 树 的 根 节 点 ， 或 到 
达 较 大 (或 相等 ) 关键 字 的 一 个 父 节 点 。 对 于 自 顶 向 下 的 方法 ， 我 们 向 树 的 下 面 移动 ， 交 换 
给 定 节 点 的 关键 字 与 其 子 节点 中 较 大 一 个 节点 的 关键 字 ， 向 下 移动 该 子 节 点 处 ， 继 续 向 树 的 
下 方 执行 这 个 过 程 ， 直 到 到 达 树 底 ， 或 到 达 不 存在 较 大 关键 字 的 节点 。 推 广 这 一 过 程 ， 这 些 
操作 不 仅 可 以 应 用 到 完全 二 叉 树 中 ， 也 可 用 于 任何 树 结构 中 。 高 级 的 优先 队列 算法 通常 使 用 
更 一 般 的 树 结构 ， 但 使 用 同样 这 些 基本 操作 来 维持 访问 结构 中 的 堆 顶 最 大 关键 字 。 
如 果 我 们 想象 用 堆 来 表示 一 个 社团 的 结构 ， 其 中 节点 的 每 个 子 节点 表示 其 下 属 〈 其 父 苘 
点 表示 直接 上 司 )， 那 么 这 些 操作 的 解释 很 有 趣 。 自 底 向 上 的 方法 对 应 着 一 个 有 希望 的 新 的 经 
理 走马 上 任 ， 发 号 施 令 的 链 发 生变 化 (通过 与 较 低 资 格 的 老板 交换 工作 ) ， 直 到 新 人 遇 到 更 高 
资格 的 老板 。 自 顶 向 下 的 方法 的 情况 是 类 似 的 ， 当 公司 的 总 经 理 被 一 个 较 低 资格 的 人 取代 。 
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如 果 总 经 理 的 最 有 力 的 下 属 要 比 新 人 更 强 ， 他 们 交换 工作 ， 而 我 们 从 支配 链 向 下 ， 把 新 人 降 
级 的 同时 提升 其 他 人 ， 直 到 新 人 到 达 相 应 能 力 的 水 平 ， 再 没有 更 高 资历 的 下 属 了 (这 种 理想 
情节 在 现实 生活 中 的 确 存在 ) ， 对 比 这 种 情景 ， 我 们 常 把 一 个 堆 中 的 上 移 称 为 “晋升 ?。 

这 两 个 基本 操作 允许 基本 优先 队列 ADT 的 高 效 实现 ， 就 如 程序 9.5 给 出 的 那样 。 把 优先 队 
列表 示 成 一 个 堆 顺 序 的 数组 ，insert 操 作 相 当 于 在 数组 末尾 加 入 新 元 素 ， 然 后 把 该 元 素 由 堆 的 
底部 往 上 移 ， 从 而 重 构 堆 ，delete the maximum 操 作 相当 于 把 最 大 元 素 从 堆 顶 移 走 ， 然 后 把 最 
后 的 元 素 移 到 堆 顶 ， 再 把 它 从 堆 顶 往 下 移 ， 从 而 重 构 堆 。 


,程序 9.5 基于 堆 的 优先 队列 


为 了 实现 PQinsert， 我 们 使 N 每 次 增 1 在 堆 尾 加 入 新 元 素 ， 然 后 使 用 fixUp 来 恢复 堆 的 条 
件 。 对 于 PQde1max， 堆 的 大 小 必须 减 1， 因 而 我 们 取 pq[1] 所 返回 的 值 ， 接 着 把 pq[N] 移 到 
pq[1]。 使 用 fixDown 来 恢复 堆 的 条 件 。PQinit 和 PQempty 的 实现 很 简单 。 数 组 中 的 第 一 个 位 
置 pq[0] 未 用 ， 但 在 某 些 实现 中 可 用 作 观 察 哨 。 

#include <stdlib.h> 

#include "Item.h" 

static ltem *pq; 

static int N; 

void PQinit(int maxN) 

{ pq = malloc((maxN+1)*sizeof (Item)); N = 0; } 
int PQempty() 
{ return N == 0; } 

void PQinsert (Item v) 

{ pq[++N] = v; fixUp(pq, N); } 

Item PQdelmax() 

{ 
exch(pq[1], pq[N]); 
fixDown(pgq, 1, N-1); 
return pq[lN--]; 

} 


性 质 9.2 ”优先 队列 抽象 数据 类 型 的 insert 和 delete the maximum 操 作 可 用 堆 有 序 的 树 实 现 ， 
满足 对 于 N 个 元 素 构 成 的 优先 队列 ，insert 操 作 所 需 的 比较 次 数 不 超过 lg N，delete the 
maximum 操 作 所 需 的 比较 次 数 不 超 过 2 lg N。 

这 两 个 操作 都 包括 沿 着 根 节点 与 堆 底 之 间 的 路 径 移 动 。 大 小 为 N 的 堆 中 的 路 径 上 的 元 素数 
不 超过 lg N 个 ( 见 性 质 5.8 和 练习 5.77)。 对 于 每 个 节点 ，delete the maximum 操 作 需 要 两 次 比 
较 ， 一 次 是 找 关 键 字 更 大 的 子 节点 ， 另 一 次 是 决定 子 节 点 是 否 需要 晋升 。 国 

图 9-5 和 图 9-6 显 示 了 通过 把 一 个 一 个 元 素 插入 初始 为 空 的 堆 中 ， 来 构造 堆 的 一 个 例子 。 在 
我 们 使 用 的 数组 表示 中 ， 它 通过 在 数组 中 顺序 移动 ， 把 数组 变 成 堆 有 序 的 数组 。 考 虑 每 次 移 
动 一 个 新 的 数据 项 时 堆 的 大 小 增 1 的 过 程 ， 使 用 fixUp 来 恢复 堆 序 性 质 。 ee 
所 需 时 间 为 N lg N (如 果 每 个 数据 项 是 到 目前 为 止 所 见 的 最 大 数据 项 ， 它 遍历 整个 堆 )， 

个 过 程 平均 情况 下 为 线性 时 间 (一 个 随机 新 元 素 只 遍历 几 层 )。 在 9.4 节 中 ， 我 们 会 着 基 最 二 
情况 下 线性 时 间 构 造 堆 的 一 种 方法 〈 把 数组 变 成 堆 有 序 的 数组 ) 。 

程序 9.3 和 程序 9.4 中 的 基本 fixUp 和 fixDown 操 作 可 以 直接 用 于 实现 change prioity 和 delete 
操作 。 为 了 改变 堆 中 间 某 个 数据 项 的 优先 级 ， 如 果 数 据 项 的 优先 级 增加 ， 我 们 使 用 fixUp 向 堆 
上 方 移动 ， 如 果 数 据 项 的 优先 级 降低 ， 我 们 使 用 fixDown 向 堆 下 方 移动 。 完 全 实现 这 些 操作 ， 
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涉及 特定 的 数据 项 ， 仅 当 在 数据 结构 中 每 个 数据 项 有 一 个 指向 数据 项 位 置 的 指针 时 才 有 意义 。 
.我 们 将 会 在 9.5 节 至 9.7 细 考虑 这 样 做 的 细节 。 





图 9-5 自 顶 向 下 构造 堆 图 9-6 自 顶 向 下 构造 堆 ( 续 ) 
注 ， 这 个 序列 描述 了 把 关键 字 A SORTING 括 入 一 注 : 这 个 序列 描述 了 把 关键 字 EX AMPLE 村 入 图 
个 初始 空 玲 的 过 程 。 新 的 数据 项 被 添加 到 堆 底 ， 9-5 开 始 的 堆 的 过 程 。 构 造 大 小 为 N 的 堆 的 总 开销 
沿 堆 底 从 左 向 右 添加 。 每 次 插入 只 影响 插入 节点 小 于 lg lt+lg2+… +lgN, 即 小 于 NlgN。 


和 根 节 点 之 间 路 径 上 的 节点 ， 因 而 ， 这 个 开销 为 
最 坏 情况 下 堆 的 大 小 的 对 数 时 间 。 


性 质 9.3 ”优先 队列 抽象 数据 类 型 的 change priority、delete 及 replace the maximum 操 作 可 
用 堆 有 序 的 树 来 实现 ， 满 足 对 于 N 个 元 素 的 优先 队列 ， 上 述 的 任何 操作 所 需 的 比较 次 数 不 超过 
21lgN, 

因为 这 些 操作 需要 指向 数据 项 的 句柄 ， 我 们 把 支持 这 些 操作 的 实现 推迟 到 9.6 节 考虑 ( 见 
程序 9.12 和 程序 9.14) 。 它 们 都 包含 在 堆 中 的 路 径 上 的 移动 ， 这 些 移动 在 最 坏 情 况 下 可 能 是 自 
顶 向 下 或 自 底 向 上 的 。 国 

注意 ，join 操 作 没有 包括 在 这 些 操作 中 。 把 两 个 优先 队列 高 效 地 组 合 在 一 起 似乎 要 求 更 复 
杂 的 数据 结构 。 我 们 将 在 9.7 节 详细 地 讨论 这 样 的 数据 结构 。 此 外 ， 这 里 给 出 的 简单 的 基于 堆 
的 方法 对 于 广泛 的 应 用 足够 应 对 。 除 了 出 现 大 量 join 操 作 的 情形 ， 共 于 堆 的 方法 都 使 用 了 最 少 
的 额外 空间 。 
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如 我 们 已 经 提 到 的 那样 ， 我 们 可 以 使 用 任何 优先 队列 来 研制 一 种 排序 方法 ， 如 程序 9.6 所 
示 。 我 们 简单 地 把 所 有 待 排序 的 关键 字 插入 优先 队列 中 ， 然 后 重复 使 用 delete the maximum 按 
照 递减 的 顺序 把 它们 都 去 除 。 使 用 表示 为 无 序 表 的 优先 队列 与 选择 排序 对 应 ， 使 用 表示 为 有 
序 表 的 优先 队列 与 插入 排序 对 应 。 

“程序 9.6” 使 用 优先 队列 进行 排序 i 

为 了 使 用 优先 队列 ADT 对 子 数组 a[1] ，…，a[r] 进 行 排序 ， 我 们 简单 使 用 PQinsert 把 所 
有 元 素 放 入 优先 队列 中 ， 然 后 按照 递减 顺序 使 用 Pade1max 删 除 这 些 元 素 。 该 排序 算法 的 运行 
时 间 与 N lg NN 成 正比 ， 但 使 用 的 额外 空间 与 (优先 队列 中 ) 待 排序 的 元 素数 成 正比 。 

void.PQsort(Item a[], int 1, int r) 

{ int k; 
PQinit(); 
for (k = 1; k <= r; k++) PQinsert (a[k]); 
for (k = r; k >= 1; k--) a[k] = PQdelmax(); 
} 


图 9-5 和 图 9-6 给 出 了 使 用 基于 堆 的 优先 队列 实现 时 的 第 一 步 的 示例 (构造 过 程 ) ， 图 9-7 和 
图 9-8 显 示 了 基于 堆 的 实现 的 第 二 步 〈 我 们 称 为 向 下 排序 过 程 ) 。 对 于 实际 应 用 ， 这 种 方法 相 
对 粗糙 ， 因 为 它 对 待 排序 的 数据 项 进行 了 额外 复制 (在 优先 队列 中 ) 。 同 时 ， 对 于 给 定 的 N 个 
元 素 ， 使 用 次 连续 插入 不 是 最 高 效 的 建 堆 方法 。 在 下 一 节 里 ， 我 们 针对 这 两 点 ， 考 虑 堆 排序 
算法 的 一 种 经 典 实 现 。 








图 9-7 堆 排 序 图 9-8 堆 排 序 ( 续 ) 
注 : 用 堆 中 底层 最 右 端 的 元 素 蔡 代 堆 中 的 最 大 元 素 ， 注 : 这 个 序列 描述 了 从 图 9-7 的 堆 中 删除 其 余 关 键 字 的 
我 们 可 以 通过 沿 着 从 根 到 底层 的 路 径 向 下 移动 来 过 程 。 即 使 每 个 元 素 剖 沿 着 路 径 到 达 底 部 ， 排 序 步 


恢复 扒 序 性 质 。 的 总 开销 小 于 lg N+…+ lg 2+lg 1， 即 小 于 N log N。 
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练习 

>9.21 ”把 关键 字 E A S Y QUESTIO N 搬 入 到 初始 为 空 的 堆 中 ， 给 出 堆 中 的 结果 。 

>9.22 ”使 用 练习 9.1 中 的 约定 ， 给 出 在 初始 为 空 的 堆 中 执行 如 下 操作 后 所 产生 的 堆 的 序列 ， 
9.23 ”因为 exch 基 本 操作 被 用 于 堆 化 的 过 程 ， 需 要 将 数据 项 装 入 并 存储 两 次 。 给 出 避免 这 个 
问题 的 更 高 效 的 实现 。 

9.24 ”为 什么 我 们 在 fixDown 中 不 使 用 观察 哨 来 避免 j<N 测 试 ? 

09.25 向 程序 9.5 的 基于 堆 的 优先 队列 实现 中 添加 replace the maximum 操 作 。 确 信 考 虑 了 所 添 
加 的 值 大 于 队列 中 的 所 有 值 。 注 意 ; 使 用 pq[0] 得 到 一 个 优雅 的 解 。 

9.26 ”在 堆 中 执行 一 次 delete the maximum 操 作 ， 必 须 移 去 的 最 少 关键 字 个 数 是 多 少 ? 给 出 大 
小 为 15 的 堆 所 达到 的 这 个 最 小 数 。 

9.27 ”在 堆 中 连续 执行 三 次 delete the maximum 操 作 ， 必 须 移 去 的 最 少 关键 字 个 数 是 多 少 ? 给 
出 大 小 为 15 的 堆 所 达到 的 这 个 最 小 数 。 


9.4” 堆 排序 


我 们 可 以 改变 程序 9.6 的 基本 思想 ， 不 需 任何 额外 空间 
可 对 数组 排序 ， 把 堆 维持 在 待 排序 的 数组 内 。 也 就 是 说 ， 针 
对 排序 任务 ， 我 们 放弃 了 隐 含 优先 队列 表示 的 想法 ， 不 受 优 
先 队列 ADT 接 口 的 限制 ， 我 们 直接 使 用 fixDown 来 完成 。 

在 程序 9.6 中 直接 使 用 程序 9.5 相 当 于 从 左 到 右 处 理 数 
组 ， 使 用 fixUp 来 保证 扫描 指针 左边 的 元 素 构成 了 堆 有 序 的 
完全 二 叉 树 。 然 后 ， 在 向 下 排序 过 程 中 ， 我 们 把 最 大 的 元 
素 放 进 堆 缩减 而 腾空 的 位 置 。 也 就 是 说 ， 向 下 排序 的 过 程 
就 像 选择 排序 ， 但 它 使 用 一 种 更 高 效 的 方法 来 找 出 数组 中 
无 序 部 分 的 最 大 元 素 。 

”这 种 方法 不 是 像 图 9-5 和 图 9-6 那 样 向 堆 中 连续 进行 插入 
来 构造 堆 ， 它 采用 后 向 方式 更 高 效 地 构造 堆 ， 自 底 向 上 构 
造 较 少 的 子 堆 ， 如 图 9-9 所 示 。 也 就 是 说 ， 我 们 把 数组 中 的 
每 个 位 置 看 作 较 小 子 堆 的 根 节点 ， 然 后 利用 事实 ，fixDown 
在 这 种 子 堆 上 操作 的 方法 与 在 较 大 堆 上 的 操作 方法 一 样 。 
如 果 一 个 节点 的 两 个 子 节点 是 堆 ， 那 么 在 那个 节点 处 调用 
fixDown 使 在 那个 节点 为 根 的 子 树 成 为 堆 。 通 过 后 向 穿越 堆 ， 
在 每 个 节点 上 调用 fixDown， 通 过 归纳 我 们 可 以 保证 堆 的 性 
质 。 从 数组 中 间 开 始 后 向 扫描 ， 因 为 我 们 跳 过 了 大 小 为 1 的 
子 堆 。 

程序 9.7 给 出 了 经 典 的 堆 排序 算法 的 一 个 完整 实现 。 虽 
然 这 个 程序 中 的 循环 似乎 在 做 不 同 的 任务 (第 一 个 循环 构 
造 堆 ， 第 二 个 循环 由 于 向 下 排序 毁坏 堆 )， 这 些 操作 都 是 基 信和 着 保证 生生 前 革 二 下 二 下 人 
于 同一 基本 过 程 。 使 用 数组 表示 完全 树 ， 除 了 根 节点 之 外 ， 总 净 有 序 的 ， 里 环 情 部 下 的 总 开 
可 以 恢复 堆 序 性 质 。 图 9-10 说 明了 与 图 9-7 至 图 9-9 对 应 的 例 销 是 线性 的 。 因 为 多 数 节点 在 底 
子 中 的 数组 内 容 。 部 的 附近 。 





图 9-9 自 底 向 上 构造 堆 


第 9 全 优 光 人 队列 和 和 的 拓 序 241 


程序 9.7 堆 排序 


使 用 fixDown 直 接 给 出 经 典 的 堆 排序 算法 。for 循 环 构造 堆 ， 接 着 while 循 环 交换 最 大 元 素 
与 数组 中 的 最 后 一 个 元 素 ， 并 修正 堆 。 继 续 这 一 过 程 直 到 堆 为 空 。 指 到 a[1-1] 的 指针 pq 允许 
代码 把 传 给 它 的 子 数组 看 作 其 第 一 个 元 素 在 下 标 1 处 的 数组 ， 它 可 表示 为 一 棵 完全 二 叉 树 ( 见 
图 9-2) 。 一 些 程序 开发 环境 也 许 不 允许 这 种 用 法 。 


void heapsort(Item a[] int 1, int r) 
{ int k, N = r-l+1; Item* pq = a+l-1; 
for (k = N/2; k >= 1; k--) 
fixDown(pq, k, N); 
while (CN > 1) 
{ exch(pq[1] ，pq[N]) ; 
fixDown(pq, 1, --N); } 











} 
ASORT :NGEXAMPLE 
ASORTINGEXAMPLE 
ASORTPNGEXAMILE 
ASORXPNGETAM II L E 
ASORXPNGETAMI LE 
ASPRXONGETAMILE 
AXPRTONGESAMILELE 
XTPRSONGEAAMILELE 
TSPAREONGEAAMI!I LX 
SRPLECONGEAAMI TX 
RLPI:EONGEAAMSYTYX 
PLOEMNGEAARNRSTX 
OLNIEMAGEAPRSYTX 
NLMIEAAGEOQOPRSTX 
MiEIEAAGNOPRSTX 
LIEGEAAMNOPRSYTX 
HGEAEALMNOPRSTX 
GEEAALMWMNOPRSTX 
EAEAGILMWMNOPRSTX 
EAAEGILMNOPRSYTX 
AAEEGILMNOPRSTX 
AEEGI LMNOPRSTX 


: 


图 9-10 堆 排 序 示例 
注 : 堆 排 序 是 一 种 高 效 的 基于 选择 的 算法 。 首 先 ， 我 们 自 底 向 上 原 位 构造 一 个 堆 。 图 中 上 面 8 行 与 图 9-9 对 应 。 
接 下 来 ， 我们 不 断 地 移 去 堆 顶 的 最 大 元 素 。 上 图 下 面 没 有 阴影 的 部 分 对 应 着 图 9-7 和 图 9-8; 阴影 部 分 包含 
着 不 断 增 大 的 排 好 序 的 文件 。 
性 质 9.4 自 底 向 上 构造 堆 所 需 时 间 为 线性 时 间 。 
观察 可 得 这 一 事实 ， 所 处 理 的 大 多 数 堆 是 小 堆 。 例 如 ， 为 了 构建 一 个 127 个 元 素 的 堆 ， 我 
们 处 理 大 小 为 3 的 32 个 堆 ， 大 小 为 7 的 16 个 堆 ， 大 小 为 15 的 8 个 堆 ， 大 小 为 31 的 4 个 堆 ， 大 小 为 
63 的 2 个 堆 ， 大 小 为 127 的 1 个 堆 ， 因 而 最 坏 情况 下 需要 32x1+16x2+8x3+4x4+2x5S+1 
x6= 120 次 晋升 。 对 于 N = 六 一 1， 晋 升 的 上 界 数 为 
》 ki2" 人 =2" nl<N 


在 N+ 1 不 是 2 的 才 时 ， 类 似 证 明成 立 。 四 
这 个 性 质 对 于 堆 排序 并 不 重要 ， 因 为 对 于 向 下 排序 过 程 它 的 时 间 仍 为 N lg N。 但 这 个 性 质 
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对 于 其 他 优先 队列 的 应 用 却 很 重要 ， 那 些 应 用 中 线性 时 间 的 构造 操作 可 以 得 到 线性 时 间 的 算 
法 。 如 在 图 9-6 所 示 的 ， 用 N 次 连续 插入 操作 构造 一 个 堆 最 坏 情 况 下 所 和 需 总 步 数 为 N lg N (对 于 
随机 文件 ， 即 使 总 步 数 平均 来 说 是 线性 的 )。 

性 质 9.5 对 NN 个 元 素 进 行 排序 ， 堆 排序 使 用 不 超过 2N lg N 次 比较 。 

由 性 质 9.2 直 接 可 得 3N lg N 次 的 比较 次 数 。 这 里 给 出 的 这 个 界限 是 根据 性 质 9.4 经 过 仔细 推 
导 得 出 。 于 

性 质 9.5 和 原 位 性 质 是 堆 排序 实用 的 两 个 基本 原因 。 它 可 以 保证 对 N 个 元 素 的 原 位 排序 时 
间 与 N lg NN 成 正比 ， 与 输入 的 实例 无 关 。 不 存在 最 坏 情 况 下 使 堆 排 序 的 运行 时 间 特 别 慢 的 输入 
实例 (而 对 快速 排序 ， 则 有 某 些 输入 使 它 的 运行 时 间 特 别 的 慢 )， 而 且 堆 排序 并 不 使 用 额外 空 
间 (而 归并 排序 需要 使 用 额外 空间 )。 这 种 可 保证 的 最 十 情况 下 的 性 能 是 有 一 定 代价 的 : 例如 ， 
算法 的 内 循环 (每 次 比较 的 开销 ) 中 的 基本 操作 比 快速 排序 内 循环 中 的 操作 要 多 ， 对 于 随机 
文件 它 使 用 的 比较 操作 次 数 比 快速 排序 多 ， 因 而 对 于 一 般 文件 或 随机 文件 ， 堆 排序 很 可 能 比 
快速 排序 慢 。 

堆 在 找 N 个 数据 项 中 的 第 k 个 最 大 元 素 的 选择 问题 中 也 是 很 有 用 的 〈 见 第 7 章 ) ， 特 别 是 ， 
如 果 k 很 小 时 ， 我 们 可 以 简单 地 在 从 堆 顶 取得 k 个 数据 项 后 ， 停 止 使 用 堆 排 序 算法 。 

性 质 9.6 ”如 果 K 小 于 或 近似 于 NW， 基 于 推 的 选择 找 N 个 数据 项 中 的 第 K 个 最 大 元 素 的 时 间 与 
AN 成 正比 ， 否 则 所 用 时 间 与 N lg N 成 正比 。 

一 种 方法 是 ， 构 造 一 个 堆 所 用 的 比较 次 数 少 于 2N 次 (由 性 质 9. 4 得 )， 移 去 k 个 最 大 元 素 所 
用 的 比较 次 数 少 于 2k lg N 次 (由 性 质 9.2 得 )， 共 和 需要 2N + 2k lg N 次 比较 。 另 一 种 方法 是 先 构 
造 一 个 大 小 为 的 小 顶 堆 ， 然 后 用 剩 下 的 元 素 执 行 X 次 replace the minimum 操 作 (insert 后 跟 
delete the minimum 操 作 ) ， 至 多 共 使 用 2K + 2(N 一 k) lg 次 比较 ( 见 练习 9.35)。 这 种 方法 使 用 
的 空间 与 £ 成 正比 ， 因 而 在 k 较 小 且 N 很 大 时 (或 N 大 小 事先 未 知 )， 对 于 找 入 个 元 素 中 的 第 个 
最 大 元 素 是 很 有 吸引 力 的 。 对 于 随机 关键 字 以 及 其 他 情况 ， 在 第 二 种 方法 中 堆 操 作 的 上 界 lg 
在 k 相 对 于 N 较 小 时 可 能 为 O(1) ( 见 练习 9.36)。 

各 种 改进 堆 排 序 的 方法 有 很 多 。 一 种 思想 是 Floyd 提 出 的 ， 在 向 下 的 过 程 中 ， 把 元 素 重 新 
播 入 堆 中 通常 要 遍历 到 堆 底 层 ， 如 果 能 够 不 检查 元 素 是 否 到 达 了 其 位 置 ， 只 是 简单 地 提升 两 
个 子 节点 中 的 较 大 者 ， 直 到 到 达 底 层 ， 接 着 治 堆 向 上 到 达 合 适 位 置 ， 这 样 可 以 节省 时 间 。 这 
种 思想 使 得 比较 次 数 降低 大 约 2 倍 ， 近 似 为 lg NI = N lg N-Ny/In2。 这 是 任何 排序 算法 所 需 的 
最 少 比较 次 数 ( 见 第 八 部 分 )。 这 种 方法 需要 额外 的 记录 信息 ， 实 际 中 仅 当 比 较 的 开销 相对 大 
时 〈 例 如 ， 我 们 对 大 的 字符 串 或 其 他 类 型 的 长 关键 字 排 序 时 ) ， 它 才 有 用 。 

另 一 种 建 堆 方法 是 根据 完全 堆 有 序 的 三 又 树 的 数组 表示 来 建立 堆 。 对 于 N 个 元 素 的 数组 ， 
其 中 的 1 至 N 个 位 置 ， 位 置 x 处 的 节点 大 于 或 等 于 位 置 3k 一 1 ，3k 和 3k+1 的 节点 ， 小 于 或 等 于 位 
置 [t+D)/3j 的 节点 。 在 降低 树 的 高 度 所 带 来 的 较 低 开销 和 求 每 个 节点 上 三 个 子 节点 中 较 大 者 
的 较 大 开销 之 间 有 一 个 权衡 问题 。 这 个 权衡 与 实现 的 细节 有 关 ( 见 练习 9.30)。 进 一 步 增 加 每 
个 节点 上 的 子 节点 数目 效果 不 大 。 

图 9-11 显 示 了 对 随机 有 序 文件 进行 堆 排 序 的 过 程 。 首 先 ， 这 个 过 程 似 乎 没有 排序 ， 因 为 
随 着 堆 的 构造 ， 大 的 元 素 被 移 到 文件 的 开始 。 然 而 ， 如 所 预料 到 的 ， 这 个 方法 看 上 去 更 像 是 
选择 排序 的 一 个 镜像 。 图 9-12 显 示 了 不 同类 型 的 输入 文件 可 以 产生 具有 独特 特征 的 堆 ， 但 随 
着 排序 过 程 的 进行 ， 它 们 看 上 去 更 像 是 随机 堆 。 

自然 地 ， 我 们 对 为 某 个 应 用 程序 在 堆 排序 、 快 速 排序 和 归并 排序 之 冶 进 行 选择 感 兴趣 。 
堆 排 序 和 归并 排序 的 选择 主要 归结 于 排序 的 不 稳定 性 〈 见 练习 9.28) 和 需要 额外 空间 之 间 的 
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选择 ， 堆 排序 和 快速 排序 的 选择 主要 归结 于 平均 情况 下 和 最 坏 情 况 下 速度 之 间 的 选择 。 人 们 
已 经 广泛 地 改进 了 快速 排序 和 归并 排序 的 内 部 循环 ， 我 们 把 对 堆 排序 的 改进 放 到 本 章 的 练习 
中 。 使 得 堆 排序 比 快速 排序 快 是 不 可 能 的 ， 如 表 9-2 给 出 的 实验 研究 结果 。 但 那些 对 自己 机 器 
上 的 快速 排序 感 兴趣 的 人 们 会 发 现 这 个 练习 具有 启发 性 。 通 常 ， 不 同 机 器 的 特性 和 编程 环境 
会 起 着 重要 的 作用 。 例 如 ， 快 速 排序 和 归并 排序 具有 局 部 特性 ， 这 使 它们 在 某 些 机 器 上 很 有 
优势 。 当 比较 的 代价 非常 高 时 ， 就 会 选择 Floyd 的 版 本 ， 在 这 些 情况 下 ， 按 照 时 间 和 空间 开销 
来 看 ， 它 几乎 是 最 优 的 。 


































































































图 9-11 ' 堆 排序 的 动态 特性 图 9-12 堆 排序 在 不 同类 型 文件 中 的 动态 特性 

注 : (左边 的 ) 构造 过 程 似乎 没有 注 : 玲 排序 的 运行 时 间 对 输入 不 太 敏感 。 无 论 什么 输入 ， 最 大 的 元 素 部 
对 文件 排序 ， 把 大 的 元 素 放 在 会 在 lg N 步 内 找到 。 这 些 图 表 显示 的 文件 是 随机 文件 、 高 斯 文件 、 几 
起 始 位 置 附近 。 然 后 ，( 右 边 的 ) 乎 有 序 文件 、 几 乎 送 序 文件 和 10 个 不 同 关键 字 的 随机 有 序 文件 《 从 
向 下 排序 过 程 像 选 择 排 序 的 过 最 上 面 开始 ， 从 左 到 右 ) 。 顶 部 的 第 2 幅 图 显示 了 使 用 自 底 向 上 的 算 
程 ， 一 开始 保持 一 个 堆 ， 并 在 法 所 构造 的 堆 。 其 余 的 图 显示 了 对 每 个 文件 进行 向 下 排序 的 过 程 。 
文件 的 最 后 构建 了 有 序 的 数组 。 堆 有 时 是 把 初始 文件 在 开始 做 一 个 镜像 ， 但 随 着 过 程 的 继续 ， 随 机 


文件 就 更 像 是 堆 了 。 
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表 9-2 堆 排序 算法 的 实验 研究 
表 中 左边 部 分 对 随机 文件 进行 排序 的 相对 时 间 证 实 了 我 们 对 堆 排 序 的 内 循环 比 快速 排序 的 内 循环 要 慢 的 期 望 ， 
但 它 可 与 归并 排序 相 比 。 表 中 右边 部 分 的 Moby Dick 的 前 N 个 字 的 时 间 显 示 了 Floyd 方 法 是 对 堆 排序 的 一 种 高 效 改进 ， 
当 比较 次 数 很 费时 间 的 时 候 。 


32 位 整 型 关键 字 字符 串 关键 字 
N Q M PQ H F Q H F 
12 500 2 5 4 3 4 8 il 8 
25 000 7 11 9 8 8 16 25 20 
50 000 13 24 22 18 19 36 60 49 
100 000 27 52 47 42 46 88 143 116 
200 000 S8 111 106 100 107 
400 000 122 238 245 232 246 
800 000 261 S20 643 542 566 





其 中 : 

Q 快速 排序 ， 标 准 实现 (程序 7.1) 
M 归并 排序 ， 标 准 实现 (程序 8.1) 
PQ 基于 堆 排序 的 优先 队列 

H 堆 排序 ， 标 准 实现 (程序 9.6) 
F 基于 Floyd 改 进 的 堆 排 序 


练习 

9.28 显示 堆 排 序 是 不 稳定 的 。 

“9.29 对 于 N= 10:，10*，105 和 10'“， 根 据 实验 确定 构造 堆 所 占 堆 排序 的 时 间 百 分 比 。 

。9.30 ”实现 基于 完全 堆 有 序 的 三 叉 树 的 堆 排 序 算法， 比较 你 的 程序 所 用 的 比较 次 数 与 标准 实 
现 中 所 用 的 比较 次 数 ， 其 中 N = 10;，10*，105 和 10s。 

“9.31 ”继续 练习 9.30， 通 过 实验 来 确定 是 否 Floyd 方 法 对 于 三 又 堆 是 高 效 的 。 

co9.32 ”只 考虑 比较 开销 ， 假 设 需要 次 比较 来 找 出 ! 个 元 素 中 的 最 大 者 ， 如 果 在 堆 排序 中 使 用 t 
又 维 ， 找 出 按照 比较 次 数 使 log N 的 系数 最 小 的 ! 值 。 首 先 假设 对 程序 9.7 进 行 直 接 推广 ， 然 
后 假设 在 内 循环 中 ，Floyd 的 方法 可 以 节省 一 次 比较 。 

09.33 ”对 于 NN = 32， 给 出 关键 字 的 一 种 排列 ， 它 使 堆 排序 使 用 尽 可 能 多 的 比较 次 数 。 
“9.34 对 于 N = 32， 给 出 关键 字 的 一 种 排列 ， 它 使 堆 排序 使 用 尽 可 能 少 的 比较 次 数 。 

9.35 证明 构建 大 小 为 的 优先 队列 ， 然 后 执行 Nk 次 替换 最 小 值 的 操作 (insert 后 跟 delete the 
minimum 的 操作 ) 后 ， 堆 中 只 剩 N 个 元 素 中 的 k 个 最 大 元 素 。 

9.36 参考 性 质 9.6 中 的 讨论 ， 使 用 练习 9.25 中 描述 的 方法 ， 实 现 基 于 堆 排 序 的 选择 算法 的 两 
种 版 本 。 并 与 第 7 章 中 基于 快速 排序 的 选择 方法 在 比较 次 数 上 作 一 比较 ， 其 中 N = 10°, k= 
100，I1000，104，105 和 105。 

。9.37 ”把 堆 有 序 的 树 表示 成 前 序 的 形式 ， 而 不 是 层 序 的 形式 ， 实 现 堆 排 序 算 法 。 并 与 堆 排 序 
的 标准 实现 在 比较 次 数 上 进行 比较 ， 随 机 关键 字 N = 10;，10*，105 和 105。 


9.5 优先 队列 ADT 


对 于 大 多 数 的 优先 队列 的 应 用 ， 我 们 希望 有 优先 队列 的 例 程 ， 而 不 是 通过 运行 delete the 
maximum 返 回 值 ， 告 诉 我 们 哪个 记录 有 最 大 的 关键 字 ， 而 且 在 其 他 应 用 中 的 过 程 也 类 似 。 也 
就 是 说 ， 我 们 赋予 优先 级 ， 惟 一 目的 是 使 用 优先 队列 来 访问 按照 合适 次 序 组 织 的 其 他 数据 。 
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这 种 安排 很 像 第 6 章 描 述 使 用 了 间接 排序 或 指针 排序 的 概念 。 特别 是 ， 这 种 方法 要 求 change 
Priority 或 delete 这 样 的 操作 有 意义 。 我 们 在 这 里 详细 考察 这 种 思想 的 实现 ， 是 因为 我 们 稍 候 要 
用 这 种 形式 的 优先 队列 ， 还 因为 这 种 情况 是 我 们 设计 优先 队列 抽象 数据 类 型 接口 时 要 面 对 的 
问题 。 

当 我 们 希望 从 优先 队列 中 删除 一 个 元 素 时 ， 如 何 确定 是 哪个 元 素 ? 当 我 们 希望 连接 两 个 
优先 队列 时 ， 如 何 把 优先 队列 像 数 据 类 型 那样 维持 ? 诸如 这 样 的 问题 是 第 4 章 中 的 主题 。 程 序 
9.8 给 出 了 我 们 在 4.8 节 讨论 的 那 种 优先 队列 的 一 种 通用 接口 。 它 支持 这 样 的 情况 ， 客 户 有 关键 
字 及 其 相关 信息 ， 同时 主要 对 访问 具有 最 大 关键 字 的 相关 信息 感 兴趣 ， 可 能 还 有 很 多 其 他 数 
据 处 理 的 操作 要 在 数据 项 上 执行 ， 如 我 们 在 本 章 一 开始 讨论 的 那样 。 所 有 操作 都 通过 句柄 
(指向 尚未 确定 的 一 个 结构 ) 引用 特定 的 优先 队列 。 插入 操作 由 客户 程序 为 添加 到 优先 队列 的 
每 个 对 象 返回 一 个 句柄 。 对 象 句柄 不 同 于 优先 队列 的 句柄 。 在 这 种 安排 之 下 ， 客 户 程序 要 保 
存 句柄 ， 它们 稍 候 可 能 用 来 确定 哪个 对 象 会 受到 delete 操 作 和 change priority 操 作 的 影响 ， 哪 
个 优先 队列 会 受到 所 有 这 些 操作 的 影响 。 

程序 9.8 一 级 优先 队列 ADT ， 加 

这 个 优先 队列 ADT 的 接口 提供 了 引用 数据 项 的 句柄 ( 它 允 许 客户 程序 删除 数据 项 并 改变 
优先 级 )， 还 提供 优先 队列 的 句柄 (允许 客户 维持 多 个 优先 队列 ， 并 把 队列 合并 到 一 起 ) 。 这 
些 类 型 PQ1ink 和 PQ 都 是 指向 结构 的 指针 ， 它 们 在 实现 中 已 经 指定 ( 见 4.8 节 )。 

typedef struct pg* PQ; 

typedef struct PAnode* PQlink; 

PQ PQinit(); 
int PQempty (PQ); 
PQ1link PQinsert (PQ, Item); 
Item PQdelmax (PQ); 
void PQchange (PQ, PQlink, Item); 
void PQdelete (PQ, PQlink); 
void PQjoin(PQ, PQ); 


CCC 

这 种 安排 给 客户 程序 和 实现 都 带 来 了 约束 。 除 了 接口 之 外 ， 客户 程序 没有 给 出 通过 句柄 
访问 信息 的 方式 。 它 有 责任 正确 使 用 句柄 的 信息 :例如 ， 不 存在 一 种 好 的 实现 方式 ， 来 检查 
一 种 非法 行为 ， 如 客户 使 用 句柄 引用 一 个 已 删除 的 元 素 。 对 于 这 一 部 分 ， 实现 不 能 使 信息 自 
由 的 移动 ， 因 为 客户 程序 拥有 以 后 可 能 使 用 的 句柄 。 这 一 点 在 我 们 考察 实现 的 细节 时 将 变 得 
更 清楚 。 如 常 ， 无 论 我 们 在 实现 中 选择 哪个 级 别 的 细节 ， 像 程序 9.8 那 样 的 抽象 接口 是 权衡 应 
用 需求 和 实现 需求 的 有 用 的 起 点 。 

使 用 一 个 无 序 双向 链表 表示 ， 直 接 实 现 基本 优先 队列 的 操作 在 程序 9.9 中 给 出 ， 这 一 代码 
说 明了 接口 的 本 质 ， 使 用 其 他 基本 表示 ， 很 容易 开发 其 他 类 似 直接 的 实现 应 用 。 

1 程序 9.9 无 序 双 链表 优先 队列 由 

程序 9.8 接 口中 的 initialize 、test 让 empty、insert 和 delete the maximum 例 程 的 实现 只 使 用 
了 基本 操作 来 维持 一 个 带 有 头 节点 和 尾 节点 的 无 序 表 。 我 们 指定 结构 PQnode 为 双 链 表 节 点 
(一 个 关键 字 和 两 个 指针 组 成 ) ， 结 构 pq 指 向 表 头 和 表 尾 的 指针 。 

#include <stdlib.h> 


#include "Item.h" 
#include "PQfull.h" 
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struct PQnode { Item key; PQlink prev, next; }; 
struct pq { PQlink head, tail; }, 
PQ PQinit() 
{ PQ pq = malloc(sizeof *pq); 
PQlink h = malloc(sizeof *h), 
t = malloc(sizeof *t); 
h->prev = t; h->next = 七; 
t->prev = h; t->next = h; 
pq->head = h; pq->tail = 
return pq; 
了 
int PQempty(PQ pq) 
{ return pq->head->next->next == pq->head; } 
PQlink PQinsert (PQ pq, Item v) 
{ PQlink t = malloc(sizeof *t); 
t->key = 
t->next = pq->head->next; t->next->prev = t; 
t->prev = pq->head; pq->head->next = 七 ; 
return t; 
} 
Item PQdelmax (PQ pq) 
{ Item max; struct PQnode *t, *x = pq->head->next; 
for (t = x; t->next != pq->head; 七 = t->next) 
if (t->key > x->key) x = t; 
max = Xx->key; 
Xx->next->prev = Xx->prev; 
XxX->prev->next = XxX->next; 
free(x); return max; 


} 





正如 我 们 在 9.1 节 所 讨论 的 那样 ， 程 序 9.9 和 程序 9.10 给 出 的 实现 适合 于 优先 队列 较 小 且 
delete the maximum 或 find the maximum 操 作 频 繁 的 应 用 ， 对 于 其 他 情况 ， 基 于 堆 的 实现 是 首 
选 。 实 现 堆 有 序 的 树 的 具有 显 式 链 接 的 fixUp 和 fixDown 操 作 同 时 又 保持 句柄 的 完整 性 是 一 项 
挑战 性 的 任务 ， 我 们 留 作 练习 ， 因为 我 们 将 会 在 9.6 节 和 9 “7 节 考虑 两 种 可 选 的 方法 。 


0 锥 序 9. 10 双 链 表 优 先 队列 ( 续 ) 0 
维持 双向 链表 的 开销 已 由 change priority、 delete 和 join 这 些 操作 实现 弛 的 常量 时 间 得 到 证 实 。 
其 中 只 使 用 了 表 上 的 基本 操作 ( 见 第 3 章 关于 双向 链表 的 细节 )。 


void PQchange (PQ pq, PQlink x, Item v) 
{ x->key = Vv; } 
void PQdelete(PQ pq, PQlink x) 
t 
XxX->next->prev = x->prev; 
xXx->prev->next = x->next; 
free(x) ; 
} 
void PQjoin(PQ a, PQ b) 
{ 
a->tail->prev->next = b->head->next; 
b->head->next->prev = a->tail->prev; 
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a->head->prev = b->tail; 

b->tail->next = a->head; 

free(a->tail); free(b->head) ， 
} 





一 级 ADT 诸 如 程序 9.8 有 很 多 优点 ， 但 有 时 考虑 其 他 安排 也 有 好 处 ， 对 于 客户 程序 和 实现 
有 不 同 的 约束 。 在 9.6 节 ， 我 们 考虑 一 个 客户 程序 负责 维持 记录 和 关键 字 的 例子 ， 并 且 优 先 队 
列 例 程 间接 引用 记录 和 关键 字 。 

在 接口 中 的 稍微 改变 也 许 更 合适 。 例 如 ， 我 们 可 能 希望 一 个 函数 返回 队列 中 优先 级 最 大 
的 关键 字 的 值 ， 而 不 只 是 返回 引用 那个 关键 字 及 其 相关 信息 的 方式 。 同 时 ， 我 们 在 4.8 节 中 考 
虑 的 关于 内 存 管 理 和 复制 语义 的 问题 开始 生效 。 我 们 并 没有 考虑 destroy 或 真正 的 copy 操 作 ， 
只 是 选择 了 join ( 见 练 习 9.39 和 练习 9.40) 中 使 用 的 几 种 可 能 之 一 。 

很 容易 把 这 些 过 程 添加 到 程序 9.8 的 接口 中 ， 但 开发 一 种 保证 所 有 操作 有 对 数 性 能 的 实现 
更 具 挑 战 性 。 在 优先 队列 不 会 增长 太 大 或 是 insert 操 作 和 delete the maximum 操 作 混合 具有 某 些 
性 质 的 应 用 中 ， 可 能 需要 完全 灵活 的 接口 。 另 一 方面 ， 在 队列 增长 太 大 和 性 能 成 10 倍 或 百倍 增 
加 受到 关注 或 欣赏 的 应 用 中 ， 可 能 值得 把 操作 集 限 制 到 保证 高 效 性 能 的 方面 。 大 量 研究 已 经 进 
入 优先 队列 算法 设计 的 领域 , 混合 了 各 种 操作 。9.7 节 中 描述 的 二 项 操作 是 一 个 重要 的 例子 。 
练习 
9.38 ”要 找 出 10' 个 随机 数 的 前 100 个 最 小 元 素 ， 你 选择 哪 种 优先 队列 实现 ? 证 实 你 的 结果 。 
。9.39 在 程序 9.9 和 9.10 的 优先 队列 ADT 中 增加 copy 和 destroy 操 作 。 

“9.40 ”改变 程序 9.9 和 程序 9.10 中 的 join 操作 的 接口 和 实现 , 使 其 返回 一 个 PQ (join 操作 的 结果 ) ， 
并 且 还 有 销毁 变量 的 效果 。 

9.41 提供 类 似 程序 9.9 和 程序 9.10 的 实现 ， 使 其 使 用 有 序 双向 链表 。 注 意 : 因为 客户 拥有 指 
向 数据 结构 的 句柄 ， 你 的 程序 只 能 改变 节点 中 的 指针 〈 而 不 是 关键 字 ) 。 

9.42 ”使 用 带 有 显 式 节点 和 指针 表示 的 完全 堆 有 序 的 树 ， 提 供 insert 和 delete the maximum 操 作 
的 实现 (程序 9.1 中 的 优先 队列 的 接口 )。 注 意 ; 因为 客户 没有 指向 数据 结构 的 句柄 ， 你 要 利 
用 这 样 的 事实 ， 交 换 节 点 中 的 信息 域 要 比 交 换 节 点 自身 容易 。 

*9.43 使 用 带 有 显 式 指针 表示 的 堆 有 序 的 树 ， 提 供 insert、delete the maximum、change 
priority 和 delete 操 作 的 实现 (程序 9.8 中 的 优先 队列 的 接口 )。 注 意 : 因为 客户 有 指向 数据 结构 
的 句柄 ， 这 项 练习 比 练习 9.42 难 得 多 。 不 仅 因 为 节点 具有 三 叉 链 接 ， 还 因为 你 只 能 交换 节点 
中 的 链接 ， 而 非 关 键 字 。 . 

9.44 在 练习 9.43 的 实现 中 ， 添 加 join 操 作 的 ( 蛮 力 法 ) 实现 。 

9.45 ”使 用 联赛 ( 见 5.7 节 ) 提供 能 够 支持 构造 (construct) 和 删除 最 大 值 (delete the maximum ) 
操作 的 优先 队列 的 接口 和 实现 。 程 序 5.19 作 为 construct 操 作 的 基础 。 

。9.46 ”把 练习 9.45 的 解 转换 成 一 个 一 级 ADT。 

。9.47 ”在 练习 9.45 中 增加 insert 操 作 。 


9.6 索引 数据 项 的 优先 队列 


假设 优先 队列 中 所 要 处 理 的 记录 已 在 数组 中 。 在 这 种 情况 下 ， 可 以 使 优先 队列 例 程 通过 
数组 下 标 指向 数据 项 。 此 外 ， 我 们 可 以 使 用 数组 下 标 作为 句柄 来 实现 优先 队列 的 所 有 操作 。 
程序 9.11 中 说 明了 这 些 接口 的 定义 。 图 9-13 显 示 了 这 种 方法 如 何 应 用 到 我 们 在 第 6 章 讨论 的 索 
引 排 序 的 例子 中 。 无 需 复制 或 对 记录 进行 特别 修改 ， 我 们 可 以 保存 包含 记录 子 集 的 优先 队列 。 


_28 #2 大 


程序 9.11 索引 数据 项 的 优先 队列 ADT 接 口 


不 是 由 数据 项 自身 来 构造 一 一 种 数据 结构 ， 这 个 接口 提供 了 使 用 客户 数组 中 的 下 标 来 构造 
优先 队列 的 方法 。insert 例 程 、delete the maximum 例 程 、 change priority 例 程 和 delete 例 程 都 使 
用 数组 下 标 构成 的 句柄 。 客 户 程序 支持 1ess 例 程 对 两 个 记录 的 比较 操作 。 例 如 ， 客 户 程序 可 
能 把 1ess(i，j) 定 义 为 比较 data[i].grade 和 data[j].grade 的 结果 。 

int less(int, int); 

void PQinit(); 

int PQempty() ; 

void PQinsert (int); 

int PQdelmax() ; 

void PQchange (int); 

void PQdelete(int); 
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图 9-13 索引 堆 数据 结构 


注 : 不 是 维持 记录 自身 ， 而 是 维持 其 索引 ， 我 们 可 以 根据 记录 子 集 用 数组 构建 优先 队列 。 这 里 给 出 的 例子 中 ， 
数组 pq 中 的 堆 的 大 小 为 5， 它 包含 着 分 数 在 前 5 个 的 学 生 的 索引 。 因 此 ，datafpq[1].name 为 Smith， 得 分 最 
高 的 学 生 的 名 字 ， 以 此 类 推 。 弟 数组 gp 克 许 优先 队列 例 程 把 数组 索引 处 理 为 向 柄 。 例 如 ， 如 果 我 们 要 把 
Smith 的 分 数 改 为 85 分 ， 只 要 改变 data[3].grade 即 可 ， 然 后 调用 change(3)。 人 优先 队 列 实现 访问 记录 
pq[qpL3]] 〈 或 pq[1]， 因 为 q9p[3]=1) 和 新 的 关键 字 data[pq[1l1]].name (或 data[3].name， 因 为 
pq[1]=3) 。 


在 已 有 数组 中 使 用 下 标 是 一 件 自然 的 事情 ， 但 它 会 导致 与 程序 9.8 的 目标 相反 的 实现 。 现 
在 是 客户 程序 不 能 自由 地 移动 信息 ， 因 为 优先 队列 例 程 抒 下 标 作为 客户 程序 维持 的 数据 ”对 
于 它 的 这 部 分 ， 如 果 客 户 程序 没有 给 优先 队列 的 下 标 ， 它 的 实现 就 一 定 不 能 使 用 下 标 。 

为 了 开发 实现 ， 我 们 使 用 和 在 6.8 节 中 索引 排序 使 用 的 完全 一 样 的 方法 。 我 们 操纵 下 标 并 
重新 定义 1ess， 使 比较 指向 客户 程序 的 数组 。 这 样 增加 了 复杂 度 ， 因 为 优先 队列 需要 保持 对 
象 ， 以 使 客户 程序 通过 句柄 〈 数 组 下 标 ) 引用 这 些 对 象 时 能 够 找到 它们 。 为 此 ， 我 们 增加 第 
二 个 索引 数组 来 记录 关键 字 在 优先 队列 中 的 位 置 。 为 使 数组 的 维护 局 部 化 ， 我 们 只 在 exch 操 
作 中 移动 数据 ， 因 而 要 合适 地 定义 exch。 

程序 9.12 中 给 出 了 使 用 堆 对 这 一 方法 的 完整 实现 。 这 个 程序 与 程序 9.5 稍 有 不 同 ， 但 它 仍 
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然 值得 研究 ， 这 是 因为 它 在 实际 中 非常 有 用 。 我 们 把 这 个 程序 中 建立 的 数据 结构 称 为 索引 堆 。 
我 们 将 使 用 这 个 程序 作为 积木 块 用 于 第 五 部 分 至 第 七 部 分 的 其 他 算法 中 。 通 常 ， 我 们 并 不 进 
行 检查 ， 我 们 假设 〈 例 如 ) 索引 总 是 在 合适 的 范围 内 ， 用 户 并 不 对 满 队列 执行 插入 操作 ， 也 
不 对 空 队列 执行 删除 操作 。 可 以 直接 添加 这 些 检查 的 代码 。 


程序 9.12)， 基 于 索引 堆 的 优先 队列 


使 用 程序 9.11 的 接口 ， 优 先 队列 例 程 可 把 数组 索引 的 pq 变 为 某 个 客户 数组 。 例如 ， 如 同 注 
释 的 那样 ， 如 果 1ess 在 程序 9.11 之 前 被 定义 ， 那 么 当 fixuUp 使 用 less(pq[j1，pq[k]) 时 ， 需 要 
时 它 会 比较 data.grade[pq[j]] 和 data.grade[pq[k]]， 数 组 qp 保 持 第 k 个 数组 元 素 在 堆 中 的 
位 置 。 这 种 机 制 提供 索引 句柄 ， 人 允许 把 change priority 和 delete 操 作 ( 见 练习 9.49) 包含 在 接口 
中 。 对 于 堆 中 的 所 有 索引 k， 代 码 维持 不 变 式 pq[qp[k]] = qpfpq[k]] = k ( 见 图 9-13)。 


#include "PQindex.h" 
typedef int Item; 
static int N, pq[maxPQ+1], qp [maxPQ+1],; 
void exch(int i, int j) 
{ int t; 
t = qp[i]; qp[i] = gqp[j]; qp[tj] = t; 
pq[lqp[i]] = i; pq[qp[j]] = j; 
} 
void PQinit() {N= 0;} 
int PQempty() { return IN; } 
void PQinsert (int k) 
{ gp[lk] = ++N; pq[fN] = ki fixUp(pq, N); } 
int PQdelmax() 
{ 
exch(pq[1] ,pq[N]); 
fixDown(pq, 1, --N); 
return pq[N+1]; 


void PQchange (int k) 
{ fixUyp(pq, qp[k]); fixDown(pq, qp[k], N); } 


我 们 可 以 对 数组 表示 的 优先 队列 使 用 同样 的 方法 〈 例 如 ， 见 练习 9.50 和 9.51) 。 使 用 间接 
法 的 主要 缺点 是 要 占用 额外 空间 。 索 引 数 组 的 大 小 必定 是 数据 数组 的 大 小 ， 而 优先 队列 的 最 
大 值 要 小 得 多 。 在 数组 中 已 有 数据 的 顶部 构建 优先 队列 的 另 一 种 方法 是 让 客户 程序 使 记录 包 
含 关键 字 ， 同 时 用 数组 索引 作为 关联 索引 ， 或 者 使 用 的 索引 关键 字 带 有 客户 提供 的 1ess 函 数 。 
因而 ， 如 果实 现 使 用 诸如 ， 程 序 9.9 和 程序 9.10 的 链表 分 配 表示 ， 那 么 优先 队列 所 使 用 的 空间 
就 会 与 队列 中 的 最 大 元 素 个 数 成 正比 。 这 样 的 方法 对 于 空间 必须 节省 且 优 先 队 列 只 涉及 数据 
数组 的 一 小 部 分 的 情况 ， 首 选 程序 9.12。 

把 这 个 方法 与 9.5 节 中 提供 的 优先 队列 完整 的 实现 方法 相 比 ， 这 种 方法 在 抽象 数据 类 型 的 
设计 上 有 着 本 质 上 的 不 同 。 在 第 一 种 情况 下 (如 程序 9.8) ， 优 先 队 列 实现 负责 分 配 和 销毁 关 
键 字 的 内 存 空间 ， 改 变 关 键 字 的 值 ， 等 等 。ADT 为 客户 程序 提供 访问 数据 项 的 句柄 ， 而 且 客 
户 只 通过 调用 优先 队列 例 程 来 访问 数据 项 ， 其 中 例 程 以 句柄 作为 参数 。 在 第 二 种 情况 下 〈 如 
程序 9.12) ， 客 户 程序 负责 管理 关键 字 和 记录 ， 优 先 队 列 例 程 通过 用 户 提供 的 句柄 (如 程序 
9.12 是 数组 索引 ) 访问 这 些 信息 。 这 两 种 情况 都 需要 客户 程序 和 实现 之 间 合 作 。 

注意 ， 在 本 书 中 ， 通 常 我 们 对 协作 的 兴趣 超过 鼓励 使 用 编程 语言 所 支持 的 机 制 。 特 别 是 ， 
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我 们 希望 实现 的 性 能 特性 适应 客户 所 需要 操作 的 动态 组 合 。 确 定 这 种 适应 性 的 一 个 方法 是 寻 
找 有 确定 最 坏 情 况 性 能 极限 的 实现 ， 但 我 们 能 够 更 容易 地 通过 简单 的 实现 来 匹配 客户 对 性 能 
的 需求 ， 可 以 解决 很 多 问题 ， 如 图 9-14 所 示 。 





图 9-14 改变 堆 中 一 个 节点 的 优先 级 


注 ， 上 图 描述 了 一 个 堆 有 序 的 堆 ， 除 了 某 个 给 定 节 点 处 。 如 果 节 点 比 其 父 节点 大 ， 那 么 它 必定 向 上 移动 ， 正 如 

在 图 9-3 中 描述 的 那样 。 这 种 情况 如 中 间 的 图 示 ，Y 向 树 的 上 方 移动 (一般 地 ， 它 可 能 在 到 根 节点 之 前 就 信 
止 了 ) 。 如 果 节 点 小 于 其 两 个 孩子 节点 中 的 较 大 者 ， 那 么 它 必定 向 下 移动 ， 正 如 在 图 9-3 中 描述 的 那样 ， 这 
种 情况 如 下 图 所 示 。B 向 树 的 下 方 移动 (一般 地 ， 它 可 能 在 到 叶 节 点 之 前 就 停止 了 ) 。 我 们 可 以 使 用 这 个 过 
程 作为 改变 堆 中 优 光 级 操作 的 基本 操作 ， 在 改变 节点 关键 字 之 后 ， 重 新 确立 堆 条 件 ， 或 者 使 用 这 个 过 程 作 
为 玲 中 删除 操作 的 基础 在 用 底层 最 右边 的 关键 字 普 换 挤 一 个 节点 中 的 关键 字 后 ， 重 新 确立 堆 的 条 件 。 

练习 

9.48 ”假定 数组 中 的 关键 字 为 EA S Y QU E STIO N。 使 用 程序 9.12， 给 出 把 这 些 关 键 字 插 

入 到 初始 为 空 的 堆 中 ，pq 数 组 和 qp 数 组 中 的 内 容 。 

og9.49 ”在 程序 9.12 中 ， 添 加 delete 操 作 。 

9.50 使 用 优先 队列 的 有 序数 组 表示 ， 实 现 索 引 数据 项 ( 见 9.11) 的 优先 队列 ADT。 

9.51 使 用 优先 队列 的 无 序数 组 表示 ， 实 现 索 引 数 据 项 〈 见 9.11) 的 优先 队列 ADT。 

o9.52 ” 编 给 定 N 个 元 素 的 数组 ， 考 虑 2N 个 元 素 的 完全 二 又 树 (表示 为 数组 pq) ， 其 中 元 素 下 标 
具有 如 下 性 质 ，(i) 对 于 i 从 0 到 N 一 1， 有 pq[N+i] = 1 (iD 对 于 ij 从 1 到 N-1， 如 果 a[pq[2*i]J] > 
a[pq[2*i+1]]， 有 pq9q[i] = pq[2*i]， 否则 pq[i] = pq[2*i+1]。 称 这 样 的 结构 为 联赛 索引 
堆 (index heap tournament) ， 因 为 这 种 结构 结合 了 索引 堆 和 联赛 ( 见 程序 5.19) 的 特点 。 给 
出 对 应 EASYQUESTION 的 联赛 素 引 堆 。 

o9.53 ”使 用 联赛 ( 见 练习 9.45) 索引 堆 实现 对 索引 数据 项 〈 见 程序 9.11) 的 优先 队列 ADT。 


9.7 二 项 队列 


我 们 考虑 的 join、delete the maximum 和 insert 的 实现 在 最 坏 情况 下 并 不 都 是 高 效 的 。 无 序 
链表 上 实现 了 快速 的 join 操作 和 insert 操 作 ， 但 实现 了 较 慢 的 delete the maximum 操 作 ， 有 序 表 
上 实现 了 快速 的 delete the maximum 操 作 ， 但 实现 了 较 慢 的 join 操作 和 insert 操 作 ， 堆 上 有 快速 
的 insert 操 作 和 delete the maximum 操 作 ， 但 较 慢 的 join 操作 ， 等 等 。( 见 表 9-1) 在 那些 有 大 量 
或 频繁 的 join 操作 的 应 用 中 ， 我 们 需要 考虑 更 高 级 的 数据 结构 。 
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在 本 文中 ， 高 效 的 意义 是 指 最 坯 情况 下 的 运 时 间 不 超过 对 数 时 间 。 这 一 界限 似乎 统治 着 
数组 的 表示 法 ， 因 为 我 们 可 以 通过 只 移动 至 少 其 中 一 个 数组 中 的 元 素来 完成 两 个 大 型 数组 的 
join 操作 。 程 序 9.9 中 的 无 序 双向 链表 的 表示 在 常量 时 间 完 成 了 join 操作 ， 但 要 求 我 们 遍历 整个 
表 来 完成 delete the maximum 操 作 。 使 用 有 序 双向 链表 ( 见 练习 9.41) 可 在 常量 时 间 完 成 delet 
the maximum 操 作 ， 但 需要 线性 时 间 来 归并 表 进 行 join 操作 。 

大 量 数据 结构 已 被 开发 出 来 ， 支 持 优 先 队 列 所 有 操作 的 高 效 实 现 。 其 中 大 多 数 操作 是 基于 
堆 有 序 树 的 有 向 链表 表示 ， 其 中 需要 两 个 指针 用 于 向 树 的 下 方 移动 (可 以 是 二 叉 树 中 的 两 个 
孩子 节点 域 ， 或 是 一 般 二 叉 树 树 结 构 中 指向 第 一 个 孩子 节点 的 域 以 及 指向 下 一 个 兄弟 节点 的 
域 ) ， 一 个 指向 父 节点 的 指针 用 于 在 树 中 向 上 移动 。 开 发 用 于 任何 ( 堆 有 序 的 ) 树 形 结构 且 显 
式 表示 节点 和 指针 的 堆 有 序 操 作 的 实现 是 一 项 直接 的 工作 。 难 点 在 于 需要 修改 树 结构 的 insert、 
delete 和 join 这 些 动态 操作 。 不 同 数据 结构 基于 不 同 的 策略 来 修改 树 结 构 同 时 又 保持 树 的 平衡 。 
一 般 地 ， 算 法 使 用 的 树 要 比 完全 二 又 树 灵 活 ， 但 保持 树 足够 平衡 以 保证 对 数 时 间 界 限 。 

维持 一 个 三 个 链 域 结构 的 开销 可 能 是 较 大 的 。 保 证 在 任何 情况 下 ， 一 个 正确 的 特定 实现 
维持 着 三 个 指针 是 一 项 挑战 性 任务 ( 见 练习 9.42)。 此 外 ， 在 许多 实际 应 用 中 ， 难 以 表明 需要 
高 效 地 实现 所 有 的 操作 ， 因 而 我 们 应 该 在 这 样 一 个 实现 之 前 暂停 一 下 。 另 一 方面 ， 要 证 实 不 
需要 高 效 实现 也 是 困难 的 ， 保 证 优先 队列 的 所 有 操作 快速 的 投资 也 是 合理 的 。 不 考虑 这 些 因 
素 ， 在 下 一 步 高 效 地 实现 从 堆 到 人 允许 join、insert 和 delete the maximum 操 作 的 数据 结构 也 很 吸 
引 人 ， 值 得 深入 研究 。 

即使 用 链表 来 表示 树 ， 堆 的 条 件 和 堆 有 序 的 二 叉 树 是 完全 的 条 件 也 太 强 ， 因 此 不 能 高 效 
实现 join 操 作 。 给 定 两 棵 堆 有 序 的 树 ， 如 何 把 它们 归并 为 一 棵 树 ? 例如 ， 如 果 其 中 一 棵 树 有 
1023 个 节点 ， 另 一 棵 树 只 有 255 个 节点 ， 不 涉及 10 或 20 个 以 上 的 节点 ， 如 何 把 它们 归并 为 一 棵 
有 1278 个 布点 的 树 ? 一 般 地 ， 如 果树 是 堆 有 序 的 和 完全 的 ， 似 乎 不 可 能 归并 堆 有 序 的 树 ， 但 
已 设计 出 各 种 高 级 数据 结构 , 削弱 了 堆 有 序 和 平衡 条 件 以 获取 设计 高 效 join 操 作 所 需 的 灵活 性 。 
下 一 步 ， 我 们 会 考虑 针对 此 题 的 一 种 独创 性 的 解决 方法 ， 称 为 二 项 队列 (binomial queue ) ， 
它 是 由 Vuillemin 在 1978 年 研制 的 。 

开始 之 前 ， 我 们 注意 到 join 操作 对 于 放松 堆 有 序 限 制 的 那些 树 是 平凡 的 。 

定义 9.4 称 带 有 关键 字 的 节点 所 组 成 的 一 棵 二 又 树 为 左 有 序 的 堆 ， 如 果 每 个 节点 中 的 关 
键 字 大 于 或 等 于 该 节点 左 子 树 (如 果子 树 存 在 ) 中 的 所 有 关键 字 。 

定义 9.5 一 棵 2 次 加 堆 是 一 棵 左 有 了 序 的 堆 ， 由 右 子 树 为 空 和 左 子 树 为 完全 二 又 树 构成 的 根 
组 成 。 这 棵 树 对 应 左 子 节点 表示 的 2 次 震 堆 ， 对 应 的 右 兄 弟 称 为 二 项 树 。 

二 项 树 和 2 次 竹 堆 是 等 价 的 。 我 们 使 用 这 两 种 表示 ， 因 为 二 项 树 非 常 容易 可 视 化 ， 而 2 次 
寡 堆 的 实现 更 简单 ， 直 接 由 定义 可 得 : 

。2 次 寡 堆 中 的 节点 个 数 为 2 的 寡 次 。 

。 不 存在 其 关键 字 大 于 根 节点 的 节点 。 

。 二 项 树 是 堆 有 序 的 。 

二 项 队列 算法 所 基于 的 平凡 操作 是 把 两 个 有 相同 节点 数 的 2 次 寡 堆 连接 起 来 。 其 结果 是 一 
个 节点 数 加 倍 且 容易 创建 的 堆 ， 如 图 9-16 所 示 。 具 有 最 大 关键 字 的 根 节 点 成 为 结果 堆 的 根 节 
点 ( 另 一 个 根 节点 作为 结果 树 的 左 子 节点 ), 最 大 关键 字 的 左 子 树 作 为 另 一 个 根 节 点 的 右 子 树 。 
给 定 树 的 链表 表示 ，join 就 是 常量 的 操作 : 我 们 简单 地 调整 顶部 的 两 个 指针 。 程 序 9.13 给 出 了 
一 种 实现 。 这 个 基本 操作 是 Vuilllemin 的 不 含 慢 操作 的 优先 队列 实现 的 方法 的 核心 。 
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A “程序 9.13 “连接 两 个 大 小 相等 的 2 次 震 堆 a 
我 们 只 需要 改变 几 个 指针 ， 就 可 把 两 个 大 小 相等 的 2 次 因 堆 组 合成 一 个 大 小 加 倍 的 2 次 
堆 。 这 个 过 程 是 二 项 队列 算法 效率 的 关键 所 在 。 


PQlink pair(PQlink p, PQAlink q) 
t 


if (less(p->key, q->key)) 
{ p->r = q~>1; q->1 = p; return q; } 
else { q->r = p->1; p->1 = q; return p; } 
} 


定义 9.6 二 项 队列 是 2 次 罪 堆 的 一 个 集合 ， 其 中 不 存在 相等 大 小 的 堆 。 二 项 队列 的 结构 是 
由 那个 队列 的 节点 数目 来 确定 的 ， 对 应 于 整数 的 二 进 制 表 示 。 

与 定义 9.3 和 9.6 对 应 ， 我 们 把 2 次 寡 堆 〈 即 数据 项 的 句柄 ) 表示 为 含有 关键 字 和 两 个 指针 
的 节点 〈 就 像 图 5-10 中 联赛 的 显 式 树 表示 ) ， 并 且 我 们 把 2 项 队列 表示 为 2 次 等 堆 的 数组 ， 如 
下 所 示 : 

struct PQnode { Item key; PQlink 1, r; }; 

struct pq { PQlink *bq; }; 

如 果 数 组 规模 不 大 而 且 树 不 高 ， 这 种 表示 法 非常 灵活 ， 可 在 lg N 内 实现 优先 队列 上 的 所 有 
操作 ， 我 们 将 会 看 到 这 一 点 。 

对 于 AN 个 元 素 的 二 项 队列 ，N 的 二 进 制 表示 中 每 一 位 包含 一 个 2 次 客 堆 。 例 如 ， 一 个 13 个 
节点 的 二 项 队列 包含 一 个 8- 堆 、 一 个 4- 堆 和 一 个 1- 堆 ， 如 图 9-15 所 示 。 在 大 小 为 N 的 一 个 二 项 
队列 中 ， 至 多 有 1g N 个 2 次 徊 堆 ， 其 中 堆 的 高 度 不 超过 lg N。 





图 9-15 大 小 为 13 的 二 项 队列 


注 : 大 小 为 N 的 二 项 队列 是 一 个 左 堆 月 序 的 2 次 需 堆 的 列表 ， 在 N 的 二 进 制 表 示 中 ， 每 一 位 表示 一 个 这 样 的 堆 。 
因此 ， 大 小 为 13 的 二 项 队列 13 = 1101; 是 由 一 个 8- 推 、 一 个 4- 堆 和 一 个 1- 堆 组 成 的 。 这 里 显示 的 例子 是 同一 
个 二 项 队列 的 左 堆 有 序 的 2 次 容 堆 的 表示 (上 图 ) 和 堆 有 序 的 二 项 树 表示 (下 图 )。 


首先 ， 我 们 考虑 insert 操 作 。 向 二 项 队列 中 播 入 一 个 元 素 的 过 程 和 二 进 制 增 1 完 全 一 样 。 
要 使 二 进 制 数 增 1， 我 们 从 右 向 左 移动 ， 当 关联 1 + 1= 10: (表示 二 进 制 的 10) 的 进位 时 ， 就 
把 1 变 为 0， 直 到 找到 最 右边 的 0， 把 它 变 为 1。 类 似 的 方法 ， 要 把 一 个 新 的 数据 项 添加 到 二 项 
队列 中 ， 我 们 从 右 向 左 移动 ， 合 并 对 应 1 位 的 堆 与 进位 堆 ， 直 到 找到 最 右边 的 空位 置 来 放置 进 
位 堆 。 
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特别 是 ， 那 一 个 新 的 数据 项 播 和 人 在 二 项 队列 时 ， 我 们 先 把 新 数据 项 变 成 1- 堆 。 接 着 ， 如 
果 N 是 偶数 (最 右边 位 为 0)， 我 们 只 要 把 这 个 1- 堆 放 入 二 项 队列 最 右边 的 空位 置 上 。 如 果 N 是 
基数 (最 右边 位 为 1) , 我 们 把 对 应 这 个 新 数据 项 的 1- 堆 与 二 项 队列 最 右边 位 置 的 1- 堆 连接 起 来 ， 
形成 一 个 进位 2- 堆 。 如 果 二 项 队列 中 对 应 2 的 位 置 为 空 ， 我 们 把 进位 堆放 入 ， 否则 ， 把 进位 
2- 堆 与 二 项 队列 中 的 2- 堆 合并 ， 形 成 一 个 进位 4- 堆 ， 以 此 类 推 ， 继 续 这 一 过 程 直 到 到 达 二 项 队 
列 中 的 一 个 空位 置 。 图 9-17 描 述 了 这 个 过 程 ， 程 序 9.14 是 一 种 实现 。 








图 9-16 连接 两 个 大 小 相等 的 2 次 寡 堆 图 9-17 把 一 个 新 元 素 插入 到 二 项 队列 中 
注 : 把 两 个 2 次 血 堆 连接 在 一 起 时 ,把 两 根 较 大 者 作 注 : 把 一 个 元 素 添 加 到 7 个 节点 的 二 项 队列 中 的 过 程 ， 
为 结果 堆 的 根 ， 该 根 的 ( 左 ) 子 树 作为 原来 另 一 与 执行 二 进 制 加 法 111， +1 = 1000; 类 似 。 在 每 一 位 
根 的 右 子 树 。 如 果 操 作 数 有 2" 个 节点 ， 那 么 结果 上 进位 。 结 果 是 下 图 的 二 项 队列 ， 包 会 一 个 8- 堆 ， 
堆 中 有 2"m' 个 节点 。 如 果 操 作 数 左 堆 有 序 的 ， 那 么 其 他 4- 堆 、2- 堆 和 1- 堆 为 空 。 


结果 推 也 是 左 推 有 序 的 ， 且 最 大 关键 字 在 堆 顶 。 
直线 下 显示 了 同一 操作 的 堆 有 序 的 二 项 树 的 表示 。 


i 程序 9. 14 二 项 队列 中 的 插入 操作 
要 向 二 项 队列 插入 一 个 节点 ， 首先 把 这 个 节点 变 成 一 个 1- 堆 ， 并 把 它 作为 一 个 进位 1- 堆 ， 
然后 从 i = 0 开始 ， 热 行 如 下 和 迭代 过 程 。 如 果 二 项 队列 中 没有 2- 堆 ， 就 把 进位 2 堆放 入 队列 。 
如 果 二 项 队列 中 有 2- 堆 ， 就 把 它 与 进位 堆 组 合 ， 形 成 一 个 2#!- 堆 ， 并 使 ; 增 1， 重 复 这 个 过 程 直 
到 在 二 项 队列 中 找到 一 个 空 堆 位 置 。 通 常 ， 按 惯例 用 z 表 示 空 链接 ， 它 可 以 定义 为 NULL 或 者 作 
为 观察 哨 节点 。 


PQlink PQinsert(PQ pqQ，Item v) 
{ int i; PQlink c, t = malloc(sizeof #t) ; 
c= t; Cc->1 = Z; Cc->r = 2; C->key = Vi 
for (i = 0; i < maxBQsize; i++) 
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T 
if (c == Z) break; 
if (pq->bq[i] == 
{ pq->bq[i] = c; break; } 


c = pair(ce, pq->bq[i]); pq->bq[i] = z; 


+ 
return 七 ; 


二 项 队列 的 其 他 操作 也 很 容易 用 二 进 制 算术 运算 来 理解 。 正 如 我 们 将 要 看 到 的 那样 ， 实 


现 join 对 应 于 实现 二 进 制 数 的 加 法 。 


现在 ,假设 我 们 有 一 个 (高 效 的 ) 函数 进行 join 操作 ， 它 的 作用 是 把 它 的 第 二 个 操作 数 中 
的 优先 队列 指针 与 它 的 第 一 个 操作 数 中 优先 队列 指针 合并 起 来 ， 并 把 合并 结果 放 在 第 一 个 操 
作 数 中 。 使 用 这 个 函数 ， 我 们 可 以 调用 join 函数 来 实现 insert 操 作 ， 其 中 的 一 个 操作 数 是 一 个 


大 小 为 1 的 二 项 队列 〈 见 练习 9.63) 。 

我 们 也 可 以 调用 一 次 join 来 实现 delete the 
maximum 操 作 。 要 找 出 二 项 队列 中 的 最 大 数据 项 ， 
我 们 扫描 队列 的 2 次 寡 堆 。 每 个 这 样 的 堆 是 左 堆 
有 序 的 ， 因 而 它 的 最 大 元 素 在 根 节 点 。 根 节点 中 
数据 项 的 最 大 者 就 是 二 项 队列 中 的 最 大 元 素 。 
为 二 项 队列 中 堆 的 个 数 不 超 过 lg N， 因 而 找 最 大 
元 素 的 总 时 间 少 于 lg N。 

要 执行 delete the maximum 操 作 ， 我 们 注意 
到 删除 左 有 序 的 2“- 堆 的 根 ， 结 果 是 k 个 左 有 序 的 2 
次 守 堆 ， 包 含 一 个 2 和 - 准 、 一 个 242- 堆 ，…… 
以 此 类 推 ， 我 们 可 以 很 容易 地 重 构 一 一 个 大 小 为 
2: 一 1 的 二 项 队列 ， 如 图 9-18 所 示 。 然 后 ， 我 们 可 
以 使 用 join 操 作 把 这 个 二 项 队列 与 原 队 列 中 的 其 
余 玲 组 合 起 来 ， 以 完成 delete the maximum 操 作 。 
程序 9. 15 中 给 出 了 它 的 实现 。 





图 9-18 删除 2 次 寡 堆 中 的 最 大 元 素 


注 : 把 根 节点 删除 ， 剩 下 2 次 守 堆 的 森林 ， 都 是 左 堆 
有 序 的 ,右边 的 根 张 成 了 树 。 这 个 操作 导致 了 
一 种 删除 二 项 队列 中 最 大 元 素 的 方法 : 首先 删 
除 包 含 最 大 元 素 的 2 次 界 堆 的 根 节 点 ， 然 后 使 用 
join 哥 作 把 结果 二 项 队列 与 原 二 项 队列 中 其 余 2 
次 者 堆 合并 起 来 。 


程序 9.15 二 项 队列 中 删除 最 大 元 素 的 操作 
我 们 首先 扫描 根 节点 找 出 最 大 元 素 ， 并 从 二 项 队列 中 删 | 除 包含 最 大 元 素 的 2 次 备 堆 。 然后 
从 它 的 2 次 竹 堆 中 删除 包含 最 大 元 素 的 根 节点 ， 并 暂时 构建 一 个 包含 2 次 备 堆 其 余部 分 的 二 项 
队列 。 最 后 ， 我 们 使 用 join 操作 把 这 个 二 项 队列 合并 为 原来 的 二 项 队列 。 


Item PQdelmax(PQ pq) 
{ int i, max; PQlink x; Item v; 
PQlink temp [maxBQsize] ; 


for (i = 0, max = -~1; i < maxBQsize; i++) 


if (pq->bq[il != z) 


if ((max == -1) || less(v, pq->bq[i]->key)) 


{ max = i; v = pq->bq[max]->key; } 


x = pq->bq [max] ->1; 


for (i = max; i < maxBQsize; i++) temp[i] = 2z; 


for (i= max ; i > 0; i--) 
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{ temp[i-1] = Xi x = x->r; temp[i-1]->r = z; } 
free (pq->bq[max]); pq->bq[max] = z; 
BQjoin(pq->bq, temp); 
return v; 


} 


如 何 连接 两 个 二 项 队列 ? 首先 ， 我 们 注意 到 如 果 这 两 个 二 项 队列 不 含 等 大 小 的 两 个 2 次 知 
堆 ， 这 个 连接 操作 就 是 平凡 的 ， 如 图 9-19 所 示 : 我 们 简单 合并 二 项 队列 中 的 堆 ， 形 成 一 个 二 
项 队列 。 大 小 为 10 的 队列 〈 由 一 个 8- 堆 和 一 个 2- 堆 组 成 ) 与 大 小 为 5 的 队列 (由 一 个 4- 堆 和 一 
个 1 堆 组 成 ) 简单 合并 为 一 个 大 小 为 15 的 队列 (由 一 个 8- 堆 、 一 个 4- 堆 、 一 个 2- 堆 及 一 个 1- 堆 
组 成 )。 更 一 般 的 例子 与 两 个 二 进 制 数 相 加 、 进 位 的 过 程 类 似 ， 如 图 9-20 所 示 。 











图 9-19 两 个 二 项 队列 的 连接 (无 进位 ) 图 9-20 两 个 二 项 队列 的 连接 

注 : 归 要 连接 的 两 个 二 项 队列 不 禽 等 大 小 的 2 次 辕 堆 时 ， 注 : 一 个 3 个 节点 的 二 项 队列 与 一 个 7 个 节点 的 二 项 队列 
join 操作 很 简单 。 进 行 这 个 操作 就 类 似 于 进行 两 个 相 加 ， 得 到 一 个 10 个 节点 的 二 项 队列 。 这 个 过 程 类 
二 进 制 数 的 加 法 ， 且 不 会 遇见 1 + 1 这 样 的 进位 。 似 于 二 进 制 相 加 的 过 程 011; + 111, = 1010,。 把 N 加 
这 里 ，10 个 节点 的 二 项 队列 与 5 个 节点 的 二 项 队列 到 E 上 得 到 一 个 室 的 1- 堆 和 一 个 包含 N 和 EE 的 进位 2- 
合并 ， 形 成 一 个 15 个 节点 的 二 项 队列 ， 对 应 于 堆 。 把 三 个 2- 堆 相 加 得 到 一 个 2- 堆 和 一 个 包含 T N 
1010, + 0101, = 1111:。 E I 的 进位 4- 扒 。 这 个 4- 堆 被 加 到 另 一 个 4- 堆 上 ， 产 


生 下 图 的 二 项 队列 。 整 个 过 程 只 涉及 少数 节点 。 


例如 ， 当 我 们 把 大 小 为 7 的 队列 (由 一 个 4- 堆 、 一 个 2- 堆 及 一 个 1- 堆 组 成 ) 加 到 大 小 为 3 的 队 
列 (由 一 个 2- 堆 及 一 个 1- 堆 组 成 ) 上 时 ， 得 到 一 个 大 小 为 10 的 队列 (由 一 个 8- 堆 及 一 个 2- 堆 组 
成 ) ， 要 做 进行 相 加 操作 ， 我 们 需要 把 一 个 1- 堆 和 一 个 进位 2- 堆 合并 ， 接 着 把 一 个 2- 堆 和 一 个 进 
位 4- 堆 合并 , 然后 把 两 个 4- 堆 合并 得 到 一 个 8- 堆 , 这 个 过 程 类 似 于 二 进 制 加 法 011: + 111, = 1010;。 
图 9-19 的 例子 要 比 图 9-20 中 的 例子 简单 。 因 为 它 类 似 于 1010, + 0101, = 1111:， 且 无 进位 。 

直接 类 比 于 二 进 制 算术 进位 可 以 自然 地 实现 join 操作 〈 见 程序 9.16) 。 对 于 每 一 位 ， 根 据 
所 涉及 的 3 位 〈 进 位 和 操作 数 中 的 两 位 ) 可 能 的 不 同 值 ， 考 虑 8 种 情况 。 代 码 要 比 简单 加 法 复 
杂 ， 因 为 我 们 处 理 的 是 不 同 的 堆 ， 而 不 是 不 同 的 位 。 但 每 种 情况 都 是 直接 的 。 例 如 ， 如 果 所 
有 3 位 都 是 1， 我 们 需要 在 结果 二 项 队列 中 保留 一 个 堆 ， 连 接 其 他 两 个 堆 ， 进 位 到 下 一 个 位 置 
上 。 实 际 上 ， 这 个 操作 执行 了 我 们 抽象 数据 类 型 的 所 有 操作 ， 我们 只 是 抵抗 住 把 程序 9.16 看 
成 一 个 纯 抽 象 二 进 制 加 法 过 程 的 诱惑 ， 二 项 队列 只 不 过 是 一 个 客户 程序 使 用 比 程序 9.13 更 为 
复杂 的 位 加 法 过 程 的 实现 。 
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“程序 9.16 两 个 二 项 队列 中 的 连接 (合并) 操作 ， 
这 个 代码 模仿 了 两 个 二 进 制 数 相 加 的 过 程 。 从 右 到 左 进行 ， 初 始 进位 为 0。 我 们 直接 处 理 
8 种 可 能 的 情况 (所 有 可 能 的 操作 数 的 值 和 进位 )。 例 如 ， 情 形 3 对 应 操作 数位 都 是 1 且 进 位 为 0 
的 情况 。 然 后 ， 结 果 为 0， 但 进位 为 1 (操作 数位 相 加 的 结果 ) 。 
#define test(C，B，A) 4*(C) + 2*(B) + 1*(A) 
void BQjoin(PQlink *a, PQlink *b) 
{ int i; PQlink c = 2z; 
for (i = 0; i < maxBQsize; i++) 
switch(test(c != z, b[i] != z, a[i] != 2z)) 
{ 
case 2: a[i] = b[i]; break; 
case 3: c = pair(a[i], b[i]); 
a[i] = Zi break; 
case 4: al[li] = cj c = Zz; break; 
case 5: c = pair(c, a[i]); 
a[i] = z; break; 
case 6: 
case 7: c = pair(c, b[i]); break; 
} 
} 
void PQjoin(PQ a, PQ b) 
{ BQjoin(a->bq, b->bq); } 


性 质 9.7 优先 队列 ADT 上 的 所 有 操作 可 用 二 项 队列 实现 ， 在 N 个 数据 项 队列 上 执行 的 任 
何 操 作 需 要 O(lg N) 步 来 完成 。 

这 些 性 能 界限 是 设计 数据 结构 的 目标 。 其 直接 结果 就 是 只 有 一 层 或 两 层 循 环 碗 代 通 过 二 
项 队列 的 树 的 根 节 点 。 为 简便 起 见 ， 我 们 实现 的 循环 穿越 了 整 棵 树 ， 因 而 其 运行 时 间 是 二 项 
队列 的 最 大 规模 的 对 数 关系 。 对 于 没有 太 多 数据 项 的 队列 ， 我 们 可 以 使 它们 满足 这 个 阐述 的 
界限 ， 只 要 记录 下 这 个 队列 的 大 小 ， 或 者 使 用 观察 哨 指针 值 来 标记 循环 终止 的 结束 点 ( 见 练 
习 9.16 和 练习 9.62) 。 在 很 多 情况 下 这 种 改变 是 不 值得 的 ， 因 为 最 大 队列 大 小 要 比 循环 迭代 最 
大 次 数 大 指数 倍 。 例 如 ， 如 果 我 们 设置 最 大 大 小 为 216， 队 列 中 一 般 有 数 千 条 数据 项 ， 那 么 我 
们 的 简单 实现 使 循环 迭代 15 次 ， 而 更 复杂 的 方法 只 需要 迭代 11 或 12 次 ， 为 了 保持 大 小 或 观察 
哨 ， 引 入 了 额外 开销 。 另 一 方面 ， 请 目地 设置 大 量 最 大 可 能 引起 我 们 的 程序 比 微小 队列 期 望 
的 时 间 运 行 更 慢 。 加 

性 质 9.8 ”在 一 个 初始 为 空 的 二 项 队列 上 ， 执 行 N 次 播 入 操作 来 构造 二 项 队列 ， 最 快 情况 
下 需要 O(MV) 次 比较 操作 。 

对 于 一 半 的 插入 不 需要 比较 操作 (在 队列 大 小 为 偶数 ， 且 不 含 1- 堆 的 情况 ) ， 对 于 剩 下 
的 一 半 插 入 操作 (在 没有 2- 堆 时 )， 只 需要 1 次 比较 操作 ， 在 没有 4- 堆 时 ， 只 需要 2 次 比较 操 
作 ， 以 此 类 推 。 因 此 ， 比 较 操作 的 总 数 少 于 0 . W2 +1 : N/4 + 2 : N/8 + … < N。 由 于 性 质 9.7， 
我 们 还 需要 对 练习 9.61 和 练习 9.62 所 讨论 的 进行 一 些 修改 ， 来 得 到 所 声称 的 线性 最 坏 情 况 的 时 
间 下 界 。 国 

正如 在 4.8 汕 所 讨论 的 那样 ， 在 程序 9.16 的 join 实现 中 没有 考虑 内 存 分 配 的 问题 ， 所 以 它 有 
一 个 内 存 泄漏 ， 在 某 些 情况 下 ， 就 不 能 用 了 。 为 了 改正 这 个 缺陷 ， 我 们 需要 对 参数 的 内 存 分 
配 和 实现 join 的 函数 的 返回 值 给 予 注意 ( 见 练习 9.65)。 

二 项 队列 提供 了 一 种 快速 性 能 保证 ， 但 如 果 对 于 某 些 操作 有 可 保证 的 常量 时 间 的 性 能 ， 所 
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设计 的 数据 结构 就 有 更 好 的 理论 特征 。 这 个 问题 是 有 趣 的 问题 ， 而 且 是 数据 结构 设计 的 一 个 活 
路 的 领域 。 另 一 方面 ， 这 些 深奥 的 数据 结构 的 实用 性 受到 怀疑 ， 可 以 肯定 仍 有 性 能 瓶颈 存在 ， 
在 深入 研究 复杂 数据 结构 解决 方法 之 前 ， 可 以 通过 降低 某 些 优先 队列 操作 的 运行 时 间 来 改进 这 
些 瓶颈 。 实 际 上 ， 除 非 需要 快速 join 操作 ， 对 于 实际 的 应 用 问题 ， 我 们 喜欢 使 用 简单 结构 对 小 
规模 数据 进行 调试 ， 然 后 使 用 堆 来 加 速 操作 ， 最 后 ， 我 们 应 该 使 用 二 项 队列 来 保证 所 有 操作 的 
对 数 性 能 。 然 而 考虑 所 有 结构 ， 基 于 二 项 队列 的 优先 队列 包 是 值得 添加 到 软件 库 中 的 。 
练习 
>9.54 ”使 用 二 项 树 表示 法 ， 画 出 大 小 为 29 的 二 项 队列 。 

.9.55 给 定 大 小 N (只 有 边 连接 的 节点 ， 没 有 关键 字 ) ， 编 写 一 个 程序 画 出 二 项 树 表示 的 二 项 
队列 。 

9.56 给 出 把 关键 字 E A S YQ UESTIO N 插 入 到 初始 为 空 的 二 项 队列 后 的 结果 。 

9.57 ”给 出 把 关键 字 E A S Y 插 入 到 初始 为 空 的 二 项 队列 后 的 结果 。 给 出 把 关键 了 UESTI 

O N 插 入 到 初始 为 空 的 二 项 队列 后 的 结果 。 然 后 给 出 在 每 个 二 项 队列 中 执行 delete the maximum 

后 的 结果 。 最 后 ， 给 出 在 两 个 结果 队列 上 执行 join 操作 后 的 结果 。 

9.58 ”使 用 练习 9.1 中 的 约定 ， 给 出 在 初始 为 空 的 二 项 队列 上 执行 以 下 操作 
PRIO*R**I*T*Y***QAUE***U*E 

所 产生 的 二 项 队列 的 序列 。 

9.59 ”使 用 练习 9.2 中 的 约定 ， 给 出 在 初始 为 空 的 二 项 队列 上 执行 以 下 操作 

(((PRIO*)+(R*IT*Y*))***)+(QUE***U*E) 

所 产生 的 二 项 队列 的 序列 。 

9.60 还 明 2' 个 节点 的 二 项 权 第 ;民有 | ”个 节点 ，0<1<n。( 这 个 事实 是 二 项 柑 命名 的 由 来 。) 

09.61 修改 二 项 队列 数据 类 型 使 它 包 含 队列 大 小 ， 然 后 使 用 这 个 大 小 来 控制 循环 ， 来 实现 二 
项 队列 使 性 质 9.7 成 立 。 

o9.62 ”使 用 一 个 观察 哨 指针 来 表明 循环 终止 ， 实 现 二 项 队列 使 性 质 9.7 成 立 。 

.9.63 ”通过 只 显 式 使 用 join 操作 ， 实 现 二 项 队列 的 insert 操 作 。 

.…9.64 ”实现 二 项 队列 的 change priority 操 作 和 delete 操 作 。 注 意 ， 你 需要 增加 第 三 个 指针 ， 用 
于 指向 树 中 的 节点 。 

.9.65 “修改 优先 队列 ADT 搂 口 (程序 9.8) 和 二 项 队列 的 实现 (程序 9.13 到 程序 9.16) ， 使 其 不 
存在 内 存 泄漏 〈( 见 练习 4.72) 。 

.9.66 ”对 于 随机 有 序 关键 字 N = 1000，104，10* 和 105， 像 程序 9.6 那 样 ， 实 际 比较 作为 排序 基 
础 的 二 项 队列 和 堆 。 注 意 : 见 练习 9.61 和 练习 9.62。 

.9.67 研制 一 种 像 堆 排 序 那样 的 原 位 排序 算法 ， 但 是 基于 二 项 队列 。 提 示 : 见 练习 9.37。 
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对 于 许多 排序 的 应 用 问题 ， 用 于 定义 文件 中 记录 顺序 的 关键 字 可 以 是 很 复杂 的 。 例 如 ， 
电话 得 或 图 书馆 目录 中 使 用 的 关键 字 就 很 复杂 。 为 了 从 研究 过 的 排序 方法 的 基本 性 质 分 离 出 
这 种 复杂 特性 ， 在 第 6 章 至 第 9 章 中 ， 我 们 使 用 比较 两 个 关键 字 、 交 换 两 个 记录 (在 这 些 函 数 
中 隐藏 操纵 关键 字 的 所 有 细节 ) 这 些 基本 操作 作为 排序 方法 及 其 应 用 的 抽象 接口 。 在 这 一 章 
里 ,我 们 考察 排序 关键 字 的 另 一 种 抽象 方法 。 例 如 ， 通 常 不 需要 在 每 一 步 对 完整 的 关键 字 进 
行 处 理 : 在 电话 敌 中 查找 某 个 人 的 电话 号 码 ， 我 们 常常 只 检查 名 字 的 前 几 个 字母 就 会 找到 包 
含 这 个 号 码 的 页 码 。 为 了 在 排序 算法 中 得 到 类 似 的 效果 ， 我 们 把 关键 字 比 较 的 抽象 操作 变 成 
把 关键 字 分 解 成 一 系列 定 长 大 小 的 块 ， 这 里 指 字 节 (byte) 。 二 进 制 数 可 分 解 为 一 系列 位 ， 字 
符 捉 可 分 解 为 一 系列 字符 ， 十进制 数 可 分 解 为 一 系列 数字 ， 还 有 许多 其 他 (不 是 所 有 ) 类 型 
的 关键 字 可 以 按 这 种 方式 分 解 。 每 次 只 对 关键 字 的 一 块 进行 处 理 的 排序 方法 称 为 基数 排序 。 
这 些 方法 并 不 比较 关键 字 : 它们 处 理 并 比较 关键 字 的 每 一 块 。 

基数 排序 算法 把 关键 字 看 作 以 R 为 基数 的 数 制 系 统 所 表示 的 数字 ， 对 于 各 种 不 同 的 R 值 
( 基 )， 算 法 处 理 这 些 数字 的 独立 位 。 例 如 ， 当 邮局 的 机 器 处 理 一 堆 邮 包 时 ， 包 衰 上 有 一 个 5 位 
的 十 进 制 数字 ， 就 把 包 衷 分 放 到 十 堆 中 : 一 堆 保 存 以 0 开头 的 包 奏 ， 一 堆 保存 以 1 开头 的 包 右 ， 
一 堆 保存 以 2 开头 的 包 圳 ， 以 此 类 推 。 如 果 必 要 的 话 ， 可 以 对 每 堆 进 行 单 独处 理 ， 对 于 下 一 位 
数字 使 用 同样 的 方法 ,或 者 如 果 只 有 几 个 包 衰 ， 可 以 使 用 一 些 简 单 的 方法 处 理 。 如 果 我 们 按 
照 从 0 到 9 的 顺序 挑 拱 包 衰 ， 并 在 处 理 后 使 每 堆 中 的 包 衰 有 序 ， 我们 就 可 以 按 顺 序 提取 包 右 。 
这 个 过 程 是 基 为 10 的 基数 排序 的 一 个 简单 例子 ， 对 于 5 到 10 位 的 十 进 制 数字 的 排序 应 用 可 以 选 
择 这 种 方法 。 这 样 的 十 进 制 数 有 邮政 编码 、 电 话 号 码 等 。 我 们 将 在 10.3 节 详细 分 析 这 种 方法 。 

不 同 的 应 用 基数 值 不 同 。 在 这 一 章 里 ， 我 们 主要 讨论 整数 类 型 或 字符 串 类 型 的 关键 字 ， 
其 中 基数 排序 得 到 广泛 应 用 。 对 于 整数 类 型 的 关键 字 ， 在 计算 机 中 把 它们 表示 为 二 进 制 数 ， 
我 们 最 常 使 用 R = 2 或 2 的 某 个 宕 ， 因 为 这 样 可 以 把 关键 字 分 解 成 为 独立 的 部 分 。 对 于 字符 串 类 
型 的 关键 字 ， 我 们 使 用 R =128 或 R = 256， 按 照 字 节 大 小 把 基 对 齐 。 除 了 这 些 直接 的 应 用 外 ， 
我 们 实际 上 可 以 处 理 能 够 表示 成 数字 计算 机 的 二 进 制 数 的 任何 类 型 。 使 用 其 他 类 型 的 关键 字 ， 
我 们 可 以 重新 构造 许多 排序 应 用 ， 使 其 能 够 使 用 基数 排序 对 二 进 制 数字 进行 操作 。 

基数 排序 算法 是 基于 提取 操作 “从 一 个 关键 字 提 取出 第 i 个 数字 ”。 幸 运 的 是 ，C 语 言 提 供 
了 底层 的 操作 浮 数 ， 可 以 用 直接 且 高 效 的 方式 实现 这 样 的 操作 。 这 是 重要 的 事实 ， 因 为 许多 
其 他 语言 (如 Pascal 语 言 ) 鼓励 我 们 编写 与 机 器 无 关 的 程序 ， 故 意 使 编写 与 机 器 表示 数字 的 方 
法 有 关 的 程序 很 难 实现 。 在 这 些 语言 中 ， 很 难 实现 很 多 位 一 位 操纵 类 型 的 技术 ， 而 这 些 技术 实 
际 上 是 最 适合 计算 机 的 。 特 别 是 基数 排序 一 度 无 法 实现 。 但 C 语 言 的 设计 者 认识 到 直接 对 位 的 
操纵 很 有 用 ， 因 此 我 们 可 以 使 用 C 语 言 的 底层 功能 来 实现 基数 排序 。 

好 的 硬件 设备 也 是 需要 的 ， 而 且 不 能 将 此 视 为 理所当然 ， 有 些 (包括 旧 的 和 新 的 ) 机 器 
提供 了 高 效 的 方法 对 小 数据 进行 操作 ， 但 另外 一 些 《〈 包 括 阳 的 和 新 的 ) 机 器 ， 如 果 使 用 这 样 
的 操作 ， 运 行 效率 明显 降低 。 尽 管 基数 排序 可 以 简单 地 称 为 抽取 数字 的 操作 ， 但 要 使 基数 排 
序 算法 达到 最 好 的 效率 ， 它 和 硬件 及 软件 环境 是 密切 相关 的 。 

基数 排序 中 有 两 种 基本 的 实现 方法 ， 这 两 种 方法 差别 很 大 。 第 一 种 方法 从 左 到 右 检查 关 
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键 字 的 位 数 ， 首 先 处 理 最 高 位 的 数字 。 这 些 方法 通常 称 为 最 高 位 优先 (most-significant-digit， 
MSD) 基数 排序 。MSD 基 数 排序 是 很 吸引 人 的 ， 


因为 完成 工作 时 ， 它 所 需 检 查 的 信息 量 最 少 (参见 .396465048 .015583409 . 
图 10-1) ，MSD 基 数 排序 和 快速 排序 类 似 ， 因 为 它 .358693642 “159369371 
们 都 根据 关键 字 开始 的 几 位 将 文件 进行 划分 ， 然 后 .015583409 .269971047 . 
递归 地 对 各 子 文件 进行 相同 的 操作 。 事 实 上 ， 当 基 -39920apda 320998642 
数 为 2 时 ，MSD 基 数 排序 的 执行 情况 和 快速 排序 类 .899854354 .396465048 . 
外 — bh pe Pe . 3 . . 
似 。 第 二 种 基数 排序 方法 就 不 同 : 它们 按照 从 右 到 | “204473269 63 696 
左 的 顺序 来 检查 关键 字 的 位 数 ， 首 先 处 理 最 不 重要 .269971047 .691004885 . 





的 数字 。 这 些 方 法 通常 称 为 最 低位 优先 (least- .538069659 .899854354 . 
significant-digit，LSD) 基数 排序 。LSD 基 数 排序 
有 些 违反 常规 ， 因 为 它 花费 了 时 间 来 检查 一 些 不 会 。。 
影响 结果 的 信息 , 不 过 很 容易 对 这 个 问题 进行 改进 ，。 计生 2 字 庆 宙 0 于 全 内 让 信和 


poe ， 个 有 9 位 数字 ， 共 有 99 位 数字 ， 但 只 需 检查 
并 且 在 很 多 应 用 中 可 以 选择 这 种 方法 。 其 中 22 位 数字 (右边 )， 就 可 以 将 它们 排 好 
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理解 基数 排序 的 关键 在 于 : (计算 机 可 处 理 称 为 机 器 字 中 的 位 。 它 通常 由 一 些小 块 组 成 ， 
这 些小 块 称 为 字 节 ，(ii) 排 序 关键 字 通常 组 织 成 字 节 序列 ，(iii) 小 的 字 节 序列 同样 可 以 充当 数 
组 的 索引 或 者 物理 地 址 。 因 此 ， 使 用 以 下 定义 进行 操作 是 很 简便 的 。 

定义 10.1 字 节 是 一 个 固定 长 度 的 位 序列 ; 字符 串 是 一 个 可 变 长 度 的 字 节 序列 ; 字 是 一 个 
国定 长 度 的 字 节 序列 。 

在 基数 排序 中 ， 根 据 实际 情况 ， 关 键 字 可 以 是 字 或 字符 串 。 本 章 中 讨论 的 一 些 基数 排序 
算法 是 基于 固定 长 度 关键 字 的 ( 字 )， 另 一 些 则 是 用 于 关键 字 的 长 度 不 定 的 情况 (字符 串 )。 

典型 机 器 的 字 节 长 度 是 8 位 ， 而 字 的 长 度 是 32 位 或 64 位 实际 值 可 在 头 文件 <1imits.h> 
中 查 到 )。 不 过 也 可 以 很 方便 地 将 字 节 和 字 的 位 数 设 置 为 其 他 值 (通常 是 内 置 机 器 位 数 大 小 
的 倍数 或 分 数 )。 我 们 使 用 与 机 器 及 应 用 相关 的 常数 来 声明 每 个 字 的 位 数 和 每 个 字 节 的 位 数 ， 
例如 ， 

#define bitsword 32 

#define bitsbyte 8 

#define bytesword 4 

#define R (1 << bitsbyte) 

上 述 声 明 中 还 包含 了 基数 排序 中 所 使 用 的 常数 R， 它 表示 字 节 的 位 数 ， 可 以 有 不 同 的 值 。 
使 用 这 些 声 明 时 ， 通 常 假设 bitsword 是 bitsbyte 的 倍数 ， 每 个 机 器 字 的 位 数 不 小 于 (上 典型 的 
是 等 于 ) bitsword， 并 且 字 节 可 以 单独 地 设 定 地 址 。 不 同 的 机 器 有 不 同 的 约定 引用 它们 的 位 
和 字 节 ， 为 讨论 便利 ， 我 们 将 考虑 字 中 的 位 是 从 左 到 右 编 了 号 的 ， 编 号 为 0 到 bitsword-1， 字 
中 的 字 节 是 从 左 到 右 编 了 号 的 ， 编 号 为 0 到 bytesword-1。 在 这 两 种 情况 下 ， 我 们 假设 编号 是 
从 最 高 位 到 最 低位 的 。 

大 多 数 机 器 支持 and 操 作 和 shift 操 作 。 我 们 可 以 使 用 它们 提取 字 中 的 字 节 。 在 C 语 言 中 ， 
我 们 可 以 直接 通过 以 下 操作 从 二 进 制 字 A 中 提取 第 B 个 字符 : 

#define digit(A, B) 

《((A) >> (bitsword-((B)+1)*bitsbyte)) & (R-1)) 


图 10-1 MSD 基 数 排序 
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例如 ， 这 个 宏 通过 向 右 移动 32-3*8 = 8 位 ， 将 一 个 32 位 数 的 字 节 2 (第 三 个 字 节 ) 提取 出 
来 , 接着 使 用 掩 码 00000000000000000000000011111111 将 其 他 位 清 0， 只 留 下 希望 读 取 的 字 节 ， 
右边 的 八 位 。 

许多 机 器 中 还 有 另 一 选项 就 是 进行 排列 ， 使 基数 与 字 节 大 小 对 准 ， 这 样 只 需 一 步 就 可 以 
获得 所 需 位 数 。C 语 言 中 的 字符 串 直接 支持 这 样 的 操作 

#define digit(A, B) ALB] 

虽然 不 同 的 数字 表达 方式 可 能 使 该 代码 不 可 移植 ， 但 这 种 方法 仍 可 用 于 数字 类 型 。 不 管 
是 哪 种 情况 ， 我 们 都 需要 知道 ， 在 一 些 情况 下 ， 这 种 访问 字 节 的 操作 可 以 使 用 基本 的 移动 - 掩 
码 操作 完成 ， 这 些 操作 与 上 一 段 提 到 的 某 种 计算 环境 下 的 某 些 操作 类 似 。 

在 稍微 不 同 的 抽象 级 上 ， 我 们 可 以 把 关键 字 看 做 数字 ， 把 字 节 看 做 阿拉 伯 数 字 。 给 定 表 
示 为 数字 的 关键 字 ， 基 数 排序 所 需 的 基本 操作 是 从 数字 中 提取 出 一 位 。 如 果 我 们 选择 基 为 2 的 
轿 ， 那 么 数字 就 由 位 组 成 ， 我 们 可 以 使 用 刚才 讨论 的 宏 ， 很 容易 地 直接 访问 这 些 位 。 实 际 上 ，， 
我 们 使 用 基 为 2 的 宕 的 原因 是 访问 每 组 中 的 位 的 代价 较 低 。 在 这 样 的 计算 环境 中 ， 我 们 也 可 以 
使 用 其 他 基数 。 例 如 ， 假 如 a 是 一 个 正 整数 ，a 的 基 为 R 的 表示 的 第 5 位 数字 为 ， 

[a/R* |modR 


在 一 台 内 符 高 性 能 数值 计算 元 件 的 机 器 中 ， 这 种 计算 对 于 一 般 基 R 和 R= 2 的 效果 是 一 样 的 。 
然而 ， 另 一 种 观点 认为 把 关键 字 看 做 0 和 1 之 间 的 数字 ， 默 认 小 数 点 在 左边 ， 如 图 10-1 所 
示 。 在 这 种 情况 下 ，a 的 第 b 位 数字 (从 左 开始 ) 为 ; 
[aR* |modR 


如 果 我 们 使 用 可 以 高 效 进行 这 些 操作 的 机 器 ， 那 么 我 们 就 能 把 它们 作为 基数 用 于 基数 排序 ， 
这 一 模型 可 用 于 有 变 长 的 关键 字 的 应 用 中 ， 如 字符 串 。 

因此 ， 本 章 其 余部 分 ， 我 们 把 关键 字 作 为 基数 为 R 的 数字 (R 未 指定 ) ， 并 利用 抽象 digit 
操作 来 访问 关键 字 中 的 数字 ， 并 确保 在 某 些 计算 机 上 可 以 开发 digit 的 快速 实现 。 

定义 10.2 关键 字 是 基数 为 R 的 数字 ， 其 备 位 数字 从 左边 开始 编号 (从 0 开始 ) 。 

根据 我 们 刚才 讨论 的 例子 ， 最 好 假设 这 种 提取 操作 可 以 让 许多 程序 在 大 部 分 机 器 上 高 效 
的 实现 ， 不 过 我 们 还 是 注意 在 一 个 给 定 的 硬件 环境 和 软件 环境 中 ， 某 一 特定 类 型 的 程序 是 比 
交 高 效 的 。 

假设 关键 字 的 长 度 都 不 短 ， 因 而 提取 它们 的 位 是 值得 的 。 如 果 关 键 字 较 短 ， 我 们 可 以 使 
用 第 6 章 中 的 关键 字 索 引 统 计 方法 。 读 方法 可 以 在 线性 时 间 中 对 N 个 介 于 0 和 R 一 1 之 间 的 关键 字 
进行 排序 ， 需 要 使 用 一 个 大 小 为 R 的 辅助 表 来 存放 统计 数 ， 和 另 一 个 大 小 为 N 的 表 来 重 排 记录 。 
因此 ， 如 果 我 们 有 足够 的 空间 存放 2" 大 小 的 表 ， 就 可 以 容易 地 在 线性 时 间 内 对 w 位 关键 字 进 行 
排序 。 实 际 上 ， 关 键 字 索 引 统计 是 基本 MSD 和 LSD 基 数 排序 方法 的 关键 所 在 。 当 关键 字 足 够 
长 时 〈 比 如 说 w = 64) ， 基 数 排序 使 用 大 小 为 2" 的 表 是 不 可 行 的 。 
练习 
>10.1 当 把 32 位 的 数量 看 做 基数 为 256 的 数字 时 ， 它 有 多 少 位 ? 描述 如 何 提取 出 各 位 。 同 样 对 
基数 为 2 回答 同一 问题 。 
>10.2 对 于 N = 10”，10* 和 10”， 当 把 任何 一 个 介 于 0 和 N 之 间 的 数字 表示 为 一 个 4 字 节 的 字 时 ， 
所 需 的 最 小 字 节 长 度 是 多 少 ? 
210.3 使 用 digit 抽 象 实现 1ess 国 数 (这样 ， 我 们 就 可 以 使 用 同一 数据 ， 将 第 6 章 和 第 9 章 的 算 
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法 和 本 章 的 算法 进行 实际 比较 )。 

0910.4 设计 并 执行 一 个 程序 ， 比较 使 用 位 移动 和 算术 运算 进行 提取 位 操作 时 的 开销 。 对 两 种 
算法 ， 每 秒 可 以 提取 多 少 位 数字 ? 注意 : 编译 器 可 能 会 将 算术 操作 转换 成 位 移动 操作 ， 或 者 
相反 1! 

“10.5 ”编写 一 个 程序 ， 对 均匀 分 布 在 0 和 1 之 间 的 N 个 随机 十 进 制 小 数 (R = 10) 进行 排序 ， 统 
计 排 序 过 程 中 所 要 进行 的 位 比较 操作 的 总 数 ， 按 照 图 10-1 示 例 的 那样 。 对 于 N = 10?，10’，105 
和 和 10 运行 程序 。 

。10.6 ”如 果 R = 2， 使 用 随机 32 位 的 量 ， 回 答 练习 10.5 的 问题 。 

。10.7” 当 数字 按照 高 斯 分 布 上 时， 回答 练习 10.5 的 问题 。 


10.2 二 进 制 快速 排序 


假设 我 们 可 以 重新 整理 文件 的 记录 ， 使 所 有 以 0 开始 的 关键 字 出 现在 所 有 以 1 开始 的 关键 
字 的 前 面 。 然 后 ， 我 们 可 以 使 用 递归 排序 方法 ， 是 一 种 快速 排序 ( 见 第 7 章 ): 将 文件 划分 为 
两 个 子 文件 ， 然 后 对 这 两 个 子 文件 单独 进行 排序 。 为 了 重 排 文件 ， 从 左 开 始 扫描 找 出 以 1 开始 
的 一 个 关键 字 ， 从 右 开始 扫描 找 出 以 0 开始 的 一 个 关键 字 ， 然 后 交换 这 两 个 关键 字 ， 继 续 这 一 
过 程 ， 直 到 扫描 指针 相遇 。 在 文献 中 (包括 该 书 的 早期 版 本 ) 这 种 方法 通常 为 基数 交换 排序 
(radix-exchange sort) ; 这 里 ， 我 们 使 用 二 进 制 快速 排序 来 强调 它 只 是 Hoare 发 明 的 快速 排序 
的 一 种 简单 变型 ， 即 使 它 在 快速 排序 算法 发 现 之 前 就 已 存在 〈 见 第 三 部 分 参考 文献 ) 。 
程序 10.1 是 这 种 方法 的 一 个 完整 实现 。 划 分 过 程 和 程序 7.2 完 全 相同 ， 除 了 数字 2 用 作 划 
分 元 素 ， 而 不 是 文件 中 的 某 个 关键 字 用 作 划 分 元 素 。 因 为 2 可 能 不 在 文件 中 ， 不 能 保证 在 划 
分 过 程 中 把 一 个 元 素 放 到 它 的 最 终 位 置 上 。 算 法 与 通常 快速 排序 不 同 还 有 ， 递 归 调 用 是 对 少 
于 1 位 的 关键 字 调用 的 。 这 种 差异 对 于 实现 性 能 有 重要 影响 。 例 如 ， 对 于 N 个 元 素 的 一 个 文件 ， 
当 出 现 一 个 退化 的 划分 时 ， 对 于 少 于 1 位 的 关键 字 就 会 导致 大 小 为 N 的 子 文件 。 因 此 ， 这 种 调 
用 的 次 数 局 限 在 关键 字 中 的 位 数 。 相 反 ， 在 标准 快速 排序 中 一 直 使 用 不 在 文件 中 的 划分 值 会 
导致 无 限 的 递归 循环 。 
， 程序 10.1 二 进 制 快速 排序 
本 生生 大 了 划分， 接着 递归 地 对 子 文件 进行 排序 。 变量 wi 记录 正 
被 检查 的 位 ， 从 0 开始 (最 左边 )。 当 i = j 时 ， 划 分 结束 。 这 时 ，a[i] 右 边 所 有 的 元 素 第 w 位 
的 值 是 1， 而 a[1] 左 边 所 有 的 元 素 第 b 位 的 信和 是 0. 元 素 a[i] 有 一 位 的 值 是 1， 除 非 文 件 中 所 有 
关键 字 第 w 位 的 值 都 是 90。 这 里 ， 划 分 循环 后 跟 一 个 测试 操作 。 
quicksortB(int a[], int 1, int r, int w) 
{finti=1，j = Ti; 
if ( <= 1 || w > bitsword) return; 
while (j != i) 
{ 
while (digit(a[i] w) 
while (digit(a[j], w) 
exch(a[i], a[j]); 


0 && (i < j)) i++; 
1 && (j > i)) j--; 


} 
if (digit(a[r], w) == 0) j++; 
quicksortB(a, 1, j-1, w+1i); 
quicksortB(a, j, r, w+1); 


262 第 三 部 分 排头 





void sort(Item a[], int 1, int r) 
{ 
quicksortB(a, 1, r, 0); 
} 





和 标准 快速 排序 一 样 ， 在 实现 内 层 循环 中 有 多 
种 选择 。 在 程序 10.1 中 ， 测 试 指针 是 否 相 遇 包 含 在 
两 个 内 层 循 环 中 。 这 种 安排 对 于 ; = j 的 情况 ， 会 
致 额 外 的 交换 。 这 可 以 通过 采用 与 程序 7.2 相 同 的 
办 法 ， 使 用 一 个 break 语 名 来 避免 这 种 情况 发 生 。 
虽然 这 里 将 a[i] 与 自身 交换 没什么 影响 。 另 一 种 可 
选 方法 是 使 用 观察 哨 关 键 字 。 

图 10-2 描 述 了 程序 10.1 对 小 文件 的 执行 情况 ， 
跟 图 7-1 的 快速 排序 进行 比较 。 该 图 显示 了 数据 的 
移动 ， 但 没有 显示 进行 不 同 移动 的 原因 ， 这 点 和 关 
键 字 的 二 进 制 的 表示 法 有 关 。 图 10-3 将 对 同一 个 例 
子 进行 更 为 详细 的 讨论 。 这 个 例子 假设 字母 是 由 一 
个 5 位 代码 表示 的 ， 字 母 表 中 的 第 i 个 字母 表示 为 二 
进 制 数字 i。 这 种 编码 是 实际 字符 编码 的 一 个 简化 
版 本 。 在 实际 中 ,使 用 更 多 的 位 数 (7、8， 甚 至 16) 
表示 更 多 的 字符 (大 小 写字 母 、 数 字 和 特殊 符号 )。 

对 包含 随机 位 的 完全 关键 字 ， 程 序 10.1 的 开始 
指针 必须 指向 字 的 最 左 位 ， 或 者 位 0。 通 常 ， 开 始 
指针 是 根据 实际 应 用 设 定 的 ， 与 硬件 中 每 个 字 的 位 
数 及 整数 和 负数 的 表示 方法 有 关 。 对 于 图 10-2 和 图 








图 10-2 二 进 制 快速 排序 示例 


注 : 按 最 高 位 划分 不 能 保证 任何 数据 项 被 放 到 合 
适 位 置 中 ; 它 只 能 保证 所 有 以 0 开始 的 关键 字 
排 在 所 有 以 1 开始 的 关键 字 之 前 。 我 们 可 以 把 
这 个 图 与 快速 排序 的 图 7-1 进 行 比较 ， 虽 然 不 
知道 二 进 制 的 关键 字 的 表示 法 时 ， 划 分 操作 
是 不 清晰 的 。 图 10-3 更 详细 地 解释 了 进行 划 
分 操作 的 精确 位 置 。 


10-3 中 的 5 位 关键 字 ， 在 32 位 机 器 中 ， 开 始 指针 将 是 位 27。 
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图 10-3 二 进 制 快速 排序 示例 (现实 关键 字 的 各 位 ) 


注 : 将 关键 字 转 撞 成 二 进 制 编码 ， 就 可 以 将 图 10-2 改 画 成 图 10-3， 对 表格 进行 压缩 以 显示 各 子 文件 的 独立 排序 
探 作 ， 并 将 行 和 列 调换 。 第 一 步 中 ， 将 文件 拆 分 为 两 个 子 文件 ， 一 个 所 有 的 关键 字 以 0 开头 ， 另 一 个 以 1 开 
头 。 接 着 第 一 个 子 序 列 拆 分 成 一 个 以 00 开 头 的 子 文件 和 另 一 个 以 01 开 头 的 子 文 件 ; 独立 地 ， 在 运行 的 某 个 
时 刻 ， 将 另 一 个 子 文件 拆 分 成 一 个 以 10 开 头 的 子 文 件 和 另 一 个 以 11 开 头 的 子 文件 。 当 所 有 的 位 数 都 处 理 后 
(如 对 重复 关键 字 ) ， 或 者 到 子 文 件 的 大 小 为 1 时 ， 就 停止 这 一 过 程 。 
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这 个 例子 强调 了 二 进 制 快速 排序 在 实际 应 用 中 的 一 个 潜在 的 问题 ， 退 化 的 划分 (划分 所 
有 关键 字 中 ， 正 在 讨论 的 所 有 位 的 值 都 相等 ) 操作 可 能 会 频繁 发 生 。 在 关键 字 的 构成 字符 间 
也 会 产生 同样 的 问题 ， 例 如 ， 将 四 个 字符 进行 8 位 编码 ， 接 着 将 它们 放 在 一 起 就 组 成 了 32 位 关 
键 字 。 这 样 ， 在 每 个 字符 的 开始 处 都 可 能 会 产生 退化 的 划分 ， 因 为 ， 例 如 ， 在 大 部 分 字符 编 
码 中 ， 所 有 小 写字 母 都 使 用 同样 的 开始 位 值 ， 这 个 问题 使 我 们 在 对 编码 数据 进行 排序 时 要 进 
行 地 址 编码 ， 在 其 他 基数 排序 中 也 有 类 似 的 问题 。 

一 旦 一 个 关键 字 通 过 它 的 左边 几 位 可 以 和 其 他 关键 字 区 分 后 ， 就 不 需要 再 检查 更 多 位 数 
的 值 了 。 这 种 特性 在 某 些 场合 具有 独特 优点 ， 而 在 某 些 场合 则 是 缺点 。 当 关键 字 是 完全 随机 
数 时 ， 对 每 个 关键 字 只 需 检查 lg N 位 值 ， 这 个 可 以 比 关 键 字 中 的 位 数 要 小 得 多 。 在 10.6 节 中 会 
讨论 这 个 观点 ， 也 可 以 参看 练习 10.5 和 图 10-1。 例 如 ， 对 一 个 具有 1000 个 数据 项 的 随机 文件 进 
行 排序 ， 可 能 只 需 对 每 个 关键 字 检 查 10 或 11 个 位 的 值 (即使 这 些 是 64 位 的 关键 字 ) 。 另 一 方面 ， 
相同 的 关键 字 间 要 检查 所 有 位 的 值 。 基 数 排序 
不 适用 于 那些 包含 许多 重复 的 长 关键 字 的 文 
件 。 对 关键 字 完 全 由 随机 值 组 成 的 文件 ， 二 进 
制 快速 排序 和 标准 的 快速 排序 的 运行 效率 都 较 
高 (两 者 的 区 别 由 抽取 位 的 操作 和 比较 操作 的 
效率 决定 )， 但 对 非 随 机 的 关键 字 值 ， 标 准 的 
快速 排序 算法 的 效率 要 较 高 ， 当 有 大 量 重复 关 
键 字 时 适合 使 用 三 路 快速 排序 。 

和 快速 排序 一 样 ， 使 用 二 又 树 可 以 方便 地 
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图 10-4 二 进 制 快速 排序 划分 trie 
注 : 这 棵 树 措 述 了 与 图 10-2 和 图 10-3 对 应 的 二 进 制 快速 


描述 划分 的 结构 (如 图 10-4 所 示 ) : 根 节点 对 
应 于 一 个 要 进行 排序 的 子 文 件 ， 它 的 两 个 子 树 
对 应 于 划分 后 的 两 个 子 文件 。 在 标准 的 快速 排 
序 中 ， 我 们 知道 划分 过 程 中 至 少将 一 个 记录 放 
到 了 合适 的 位 置 中 ， 所 以 将 关键 字 放 在 树 的 根 
节点 ; 在 二 进 制 快速 排序 中 ， 只 有 当 子 文件 的 
大 小 为 1 时 或 者 已 经 遍历 了 关键 字 中 各 位 的 值 
后 ， 才 能 知道 关键 字 放 在 了 合适 的 位 置 ， 所 以 
将 关键 字 放 在 树 的 底部 。 这 样 的 结构 称 为 二 进 
制 trie (binary trie) 第 15 章 将 详细 讨论 二 





排序 划分 结构 。 因 为 没有 数据 项 一 定 在 合 违 的 位 置 ， 
关键 字 与 树 的 末节 点 对 应 。 该 结构 有 以 下 特性 : 从 
根 节 点 开始 访问 到 关键 字 ，0 代 表 左 分 支 ，1 代 表 右 
分 支 ， 给 出 了 关键 字 的 控制 位 。 这 些 位 在 排序 过 程 
中 把 该 关键 字 与 其 他 关键 字 区 分 开 。 黑 色 的 小 方块 
表示 空 的 划分 部 分 (如 果 所 有 关键 字 的 控制 位 都 相 
同 ， 关 键 字 就 会 出 现在 同一 边 ) 。 本 例 中 ， 这 种 情 
况 只 发 生 在 接近 树 的 底部 ， 也 可 能 发 生 在 树 的 较 高 
位 置 ; 例如 ， 如 果 关 键 字 中 不 包含 I 或 者 X， 它 们 的 
节点 就 会 被 一 个 空 节 点 代替 。 注 意 ， 重复 的 关键 字 
(A 和 E) 不 可 以 被 划分 〈 当 检查 了 所 有 的 位 后 ， 排 
序 操 作 将 它们 放 到 同一 个 文件 中 ) 。 


进 制 trie 的 特性 。 其 中 一 个 重要 的 特性 就 是 ， 树 的 结构 完全 由 关键 字 的 值 决定 ， 而 不 是 它们 的 
顺序 。 

二 进 制 快速 排序 的 划分 界线 由 待 排序 的 数据 项 的 范围 及 数 且 的 二 进 制 表示 法 决定 。 例 
如 ， 如 果 文 件 是 小 于 171 =10101011;, 的 整数 的 随机 排列 的 文件 ， 那 么 对 第 一 位 的 划分 等 于 大 
致 对 值 128 的 划分 ， 因 此 子 文件 是 不 相等 的 【一 个 大 小 为 128， 一 个 大 小 为 43)。 图 10-5 中 的 
关键 字 是 随机 的 8 位 值 ， 所 以 不 会 有 这 样 的 情况 发 生 ， 但 我 们 要 知道 在 实际 应 用 中 有 这 样 的 
情况 。 

通过 消除 递归 和 对 小 的 子 文件 进行 特殊 处 理 ， 可 以 改进 程序 10.1 的 递归 实现 效率 ， 跟 我 们 
在 第 7 章 中 对 快速 排序 所 做 的 类 似 。 
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图 10-5 二 进 制 快速 排序 对 于 大 规模 文件 的 动态 特性 


注 : 在 二 进 制 快速 排序 中 的 划分 界限 对 于 关键 字 的 顺序 ， 没 有 标准 快速 排序 中 对 于 关键 字 的 顺序 敏感 。 这 里 ， 
两 个 不 同 的 随机 8- 位 文件 所 导致 的 划分 概貌 实际 一 样 。 

练习 

>10.8 按 图 10-2 的 方法 ， 对 序列 E A SY QU E STIO N 进 行 基数 快速 排序 ， 并 画 出 相应 于 划 
分 步骤 地 线索 。 

10.9 对 3 位 二 进 制 数字 文件 ， 001，011，101，110，000，00]，010，111，110，010， 比 较 
二 进 制 快速 排序 中 使 用 的 交换 操作 数 和 普通 快速 排序 中 使 用 的 交换 数 。 

o10.10 为 什么 在 二 进 制 快速 排序 中 不 像 普 通 的 快速 排序 那样 ， 强 调 先 对 两 个 子 文件 中 较 小 的 
那个 进行 操作 ? 
210.11 使 用 二 进 制 快 速 排序 对 一 个 小 于 171 的 非 负 整数 随机 排列 进行 排序 ， 描 述 第 二 层 的 划 
分 操作 的 情况 〈 当 对 左边 子 文件 进行 划分 时 和 右边 子 文件 进行 划分 时 )。 

10.12 ”编写 一 个 程序 ， 经 过 一 遍 的 预 处 理 过 程 ， 区 分 出 关键 字 相 等 处 的 控制 位 的 数目 。 接 着 
调用 修改 的 二 进 制 快速 排序 进行 排序 ， 排 序 时 忽略 掉 那 些 位 数 。 比 较 你 的 程序 的 运行 时 间 与 
标准 程序 的 运行 时 间 ，N = 1023，104，105，104， 设 输入 是 32 位 字 ， 有 具有 如 下 格式 :最 右边 16 
位 是 随机 均匀 分 布 的 ， 最 左边 16 位 是 都 是 0， 除 了 位 置 ;之 外 ， 此 时 ;的 右边 有 ;个 1。 
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10.13 ”修改 二 进 制 快速 排序 ， 检 查 是 否 所 有 的 关键 字 都 相等 。 使 用 练习 10.12 中 的 数据 类 型 ， 
对 N = 10 ，10*，10:，104， 将 该 程序 的 运行 时 间 与 使 用 标准 二 进 制 快速 排序 程序 的 运行 时 间 
进行 比较 。 

10.3 MSD 基 数 排序 


在 基数 排序 中 只 使 用 1 位 ， 将 关键 字 当 作 是 基数 为 2 (二 进 制 ) 的 数字 ， 并 且 先 考虑 最 高 
位 。 一 般 而 言 ， 假 定 先 考虑 最 高 位 来 对 基 R 的 数 进行 排序 。 这 样 做 ， 需 要 将 数组 划分 成 R 部 分 ， 
而 不 只 是 划分 成 两 部 分 ， 是 划分 成 多 个 部 分 。 传 统 上 ， 划 分 的 部 分 称 为 桶 (bin 或 bucket)， 并 
认为 算法 使 用 R 个 桶 进行 排序 ， 每 个 桶 包含 第 一 位 的 一 个 可 能 的 值 ， 如 下 图 所 示 : 


| 入 第 ! 位 为 ! | ”第 1 位 为 2 
的 关键 字 | ”的 关键 字 | 的 关键 字 
parto past) bar . bin te 

我 们 对 关键 字 进 行 访问 ， 将 它们 分 配 到 相应 的 桶 中 ， 接 着 递归 地 对 桶 中 那些 少 于 1 字 节 关 
键 字 的 内 容 进 行 排序 。 

图 10-6 显 示 了 一 个 对 随机 整数 序列 进行 MSD 基 
数 排序 的 例子 。 和 二 进 制 快速 排序 算法 不 同 ， 这 个 
算法 对 于 基本 有 序 的 文件 排序 相当 快 ， 如 果 基 数 足 
够 大 ， 即 使 在 第 一 次 划分 中 排序 也 很 快 。 

如 同 在 10.2 节 中 提 到 的 那样 ， 基 数 排序 最 吸引 
人 的 特性 之 一 就 是 可 以 对 字符 串 类 型 的 关键 字 进 行 
快速 的 操作 。 这 一 观察 可 在 C 语 言 和 对 处 理 字符 惠 图 106 MSD 基 数 排序 的 动态 特征 
提供 直接 支持 的 其 他 程序 设计 语言 中 看 到 。 对 注 : MSD 基 数 排序 可 能 只 需 一 步 就 能 完成 整个 排 

、 js 2 ， 如 这 里 显示 的 随机 8 位 数 的 例子 。 
MSD 基 数 排序 来 说 ， 我 们 简单 地 使 用 一 个 与 字 节 。。 sD 外间 让 
大 小 相关 的 基数 。 要 提取 某 一 位 ， 就 读 入 该 位 ， 要 文件 划分 成 4 个 子 文 件 。 接 下 来 的 一 步 又 将 每 
移 到 下 一 位 ， 就 将 字符 串 指针 加 1。 这 里 ， 我 们 讨 个 子 文件 划分 成 4 个 子 文件 。3 位 的 MSD 排 序 
论 国定 长 度 的 关键 字 ， 稍 后 就 会 看 到 变 长 的 关键 (右边 ) 在 每 一 步 中 把 文件 划分 成 8 个 子 文 件 。 

一 步 中 每 个 于 文件 义 被 划分 成 8 部 分 外 
字 ， 它 们 的 处 理 机 制 是 一 样 的 。 | 让 

图 10-7 显 示 了 对 包含 3 个 字母 的 单词 进行 MSD 
基数 排序 的 例子 。 为 了 简便 起 见 ， 途 中 假设 基数 为 26 ， 而 在 大 部 分 应 用 程序 中 会 根据 字符 的 
编码 ， 使 用 一 个 更 大 的 基数 。 首 先 ， 对 单词 进行 划分 ， 使 以 a 开 头 的 单词 在 以 b 开 头 的 单词 前 ， 
等 等 。 接 着 ， 对 以 a 开 头 的 单词 进行 递归 排序 ， 接 着 对 以 b 开 头 的 单词 进行 排序 ， 以 此 类 推 。 
如 本 例 所 表明 的 ， 排 序 中 的 大 部 分 工作 依赖 于 对 第 一 个 字母 进行 的 划分 ， 从 第 一 个 划分 得 到 
的 子 文件 已 经 很 小 。 

如 同 第 7 章 和 10.2 节 中 讨论 的 快速 排序 及 在 第 8 章 提 到 的 归并 排序 那样 ， 我 们 可 以 通过 使 
用 一 些 针 对 小 规模 情况 的 简单 算法 来 改进 递归 程序 。 在 基数 排序 中 ， 对 小 的 子 文件 〈 包 含 数 
量 较 少 的 元 素 的 桶 ) 使 用 另 一 种 排序 方法 是 非常 高 效 的 ， 因 为 有 很 多 这 样 的 小 文件 。 另 一 方 
面 ， 通 过 调整 R 的 值 也 可 以 对 算法 进行 改进 ， 因 为 如 果 R 太 大 ， 初 始 化 和 检查 桶 的 代价 会 很 
高 ， 如 果 R 太 小 ， 就 不 能 很 好 地 利用 将 文件 分 得 精细 小 的 潜在 效率 。 在 本 节 最 后 和 10.6 节 我 们 
会 接着 讨论 这 个 问题 。 
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图 10-7 MSD 基 数 排序 示例 

注 : 根据 第 一 个 字母 ， 把 单词 划分 到 26 个 桶 中 。 然 后 ， 用 同样 的 方法 从 第 二 个 字母 开始 对 所 有 的 桶 的 内 容 进行 

排序 。 

要 实现 MSD 基 数 排序 , 我 们 需要 对 第 7 章 中 实现 快速 排序 相关 的 划分 数组 的 方法 进行 推广 。 
对 于 这 些 基 于 指针 的 方法 ， 指 针 从 数组 两 端 开 始 ， 并 在 中 间 相 遇 ， 在 只 有 两 到 三 次 划分 时 工 
作 得 很 好 ， 但 并 不 能 够 直接 推广 。 幸 运 的 是 ， 第 6 章 用 于 对 小 范围 关键 字 进 行 排序 ， 基 于 关键 
字 索 引 的 计数 方法 ， 可 以 很 好 地 满足 我 们 的 要 求 。 我 们 使 用 一 个 计数 表格 和 一 个 辅助 数组 ， 
在 第 一 次 对 数组 的 遍历 中 ， 统 计 每 个 起 着 控制 位 作用 的 位 的 出 现 次 数 。 这 些 统计 数 告诉 我 们 
在 哪里 进行 划分 。 接 着 ， 对 数组 的 第 二 次 遍历 中 ， 使 用 这 些 统计 数 将 数据 项 移 到 辅助 数组 的 
合适 位 置 中 。 | 

程序 10.2 实 现 了 这 一 过 程 。 它 的 递归 结构 推广 了 快速 排序 算法 ， 因 而 需要 对 在 7.3 节 中 考 
虑 的 同一 问题 进行 讨论 。 为 了 避免 过 度 递归 ， 是 否 需 要 最 后 处 理 最 大 的 子 文件 ? 当然 是 不 需 
要 的 ， 因 为 递归 的 深度 由 关键 字 的 长 度 限制 。 是 否 应 使 用 简单 方法 如 插入 排序 对 小 的 子 文件 
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进行 排序 ”当然 需要 ， 因 为 有 大 量 这 样 的 文件 。 
程序 10.2. MSD 基 数 排序 
这 个 程序 是 从 程序 8.17 (关键 字 索 引 计数 排序 ) 导出 的 ， 将 对 关键 字 引 用 操作 改 为 对 关键 
字 各 位 进行 操作 ， 在 最 后 添加 一 个 循环 ， 来 对 从 同一 数字 开始 的 关键 字 的 每 个 子 文件 进行 递 
归 调用 。 对 变 长 的 以 0 结束 的 关键 字 (如 C 语 言 的 字符 串 ) ， 省 略 第 一 条 if 语句 和 第 一 个 递归 调 
用 。 这 一 实现 使 用 了 一 个 足够 大 的 可 以 保存 输入 文件 副本 的 辅助 数组 (aux ) 。 
#define bin(A) l+count [A] 
void radixMSD(Item a[], int 1, int r, int w) 
{ int i, j, count[R+1]; 
if (w > bytesword) return; 
if (r-1 <= M) { insertion(a, 1, r); return; } 
for (j = 0; j < R; j++) count[j] = 0; 
for (i = 1; i <= r; i++) 
count [digit (a[i], w) + 1]++; 
for (j = 1; j < R; j++) 
count[j] += count[j-1]; 
for (i = 1; i <= r; i++) 
aux[count [digit(a[i] w)]++] = a[i]; 
for (i = 1; i <= r; i++) a[ri] = aux[i-1]; 
radixMSD(a, 1, bin(0)-1i, w+1); 
for (j = 0; j < R-1; j++) 
radixMSD(a, bin(j), bin(j+1)-1, w+1); 
} 


为 了 进行 划分 ， 程 序 10.2 使 用 了 一 个 和 待 排序 数组 的 大 小 一 样 的 辅助 数组 。 同 样 ， 我 们 可 
以 选择 使 用 原 位 关键 字 索 引 统计 方法 〈 见 练习 10.17 和 练习 10.18) 。 我 们 要 特别 注意 空间 问题 ， 
因为 递归 调用 可 能 使 局 部 变量 占用 大 量 空间 。 在 程序 10.2 中 ， 移 动 关键 字 (aux) 需要 的 临时 
缓冲 区 可 能 会 很 大 ,但 是 保存 统计 量 和 划分 位 置 (count) 的 数组 必须 是 局 部 的 。 

辅助 数组 所 需 的 额外 空间 并 不 是 涉及 长 关键 字 和 记录 的 许多 基数 排序 应 用 中 所 关注 的 主 
要 问题 。 因 为 对 这 样 的 数据 ， 通 常会 使 用 指针 排序 。 因 此 ， 额 外 的 空间 是 用 于 调整 指针 的 ， 
和 关键 字 及 记录 项 的 大 小 相 比 较 是 较 小 的 (但 这 个 问题 也 不 是 毫 无 意义 的 )。 如 果 空 间 上 人 允许， 
而 且 运 行 效 率 很 重要 〈 在 使 用 基数 排序 时 的 通常 情况 ) ， 我 们 也 可 以 通过 递归 参数 转换 来 消除 
数组 复制 的 开销 ， 和 10.4 节 中 对 于 归并 排序 所 作 的 处 理 类 似 。 

对 于 随机 关键 字 ， 在 每 个 桶 中 的 关键 字 的 个 数 〈 子 文件 的 大 小 ) 在 第 一 次 遍历 后 平均 为 
N/R 个 。 实 际 上 ， 关 键 字 可 能 不 是 随机 的 (如 当 关 键 字 是 英语 单词 字符 串 时 ， 我 们 知道 只 有 一 
些 是 x 开头 的 ,而 没有 单词 是 xx 开 头 的 )， 因 此 ,许多 桶 将 会 是 空 的 ， 而 许多 非 空 桶 中 的 关键 
字 要 比 其 他 一 些 桶 中 的 关键 字 多 很 多 (如 图 10-8)， 虽 然 有 这 样 的 影响 ， 多 路 的 划分 过 程 还 是 
能 高 效 地 将 待 排序 的 大 文件 划分 成 许多 小 的 文件 。 

实现 MSD 基 数 排序 的 另 一 种 方法 是 使 用 链表 。 对 每 个 桶 使 用 一 个 链表 ， 在 对 待 排序 数据 
项 的 第 一 次 遍历 中 ， 按 照 每 个 数据 项 的 控制 数字 的 值 ， 把 它 插 入 到 合适 的 链表 中 。 然 后 ， 对 
子 表 进 行 排序 ， 并 把 所 有 链表 连接 到 一 起 形成 完整 有 序 序列 。 这 种 方法 提出 了 一 个 挑战 性 的 
程序 设计 问题 ( 见 练习 10.36)。 要 把 所 有 链表 连接 到 一 起 ， 需 要 保存 所 有 链表 的 开始 位 置 和 
结束 位 置 ， 当 然 ， 还 有 许多 链表 是 空 链 表 。 
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图 10-8 MSD 基 数 排序 示例 (包含 空 桶 ) 
注 : 即使 在 第 二 步 中 对 于 小 的 文件 ， 也 会 遇 到 太 多 的 空 桶 。 


要 使 基数 排序 对 于 某 种 应 用 有 好 的 效率 ， 可 以 通过 选择 合适 的 基数 以 及 划分 小 文件 的 值 
来 限制 遇 到 的 空 桶 数目 。 作 为 一 个 具体 例子 ， 假 定 要 对 2 个 64 位 的 整数 排序 ， 为 了 使 统计 表 
较 之 文件 较 小 ， 必 须 选 择 基 数 R = 2"“， 这 相当 于 检查 关键 字 的 16 位 。 但 在 第 一 次 划分 之 后 ， 
文件 的 平均 大 小 只 有 2 ， 对 于 这 样 的 小 文件 基数 为 2 过 大 。 更 坏 的 是 ， 可 能 有 很 多 这 样 的 文 
件 ， 本 例 中 大 概 只 有 2 “个 。 对 于 这 2 个 文件 中 的 每 个 文件 ， 排 序 过 程 会 产生 2 个 空 的 统计 数 ， 
而 只 有 2 个 是 非 空 的 ， 等 等 ， 且 至 少 花费 2 次 算数 操作 。 程 序 10.2 的 实现 中 假设 大 多 数 桶 是 非 
空 的 。 对 每 个 空 桶 执行 了 一 些 算数 操作 (例如 ， 它 对 空 桶 执行 递归 调用 ) ， 因 而 ， 对 于 本 例 而 
言 它 的 运行 时 间 是 巨大 的 。 在 第 二 层 上 合适 的 基数 可 能 为 2 或 2*。 简 言 之 ， 我 们 可 以 肯定 在 
MSD 基 数 排序 中 ， 对 于 小 文件 不 使 用 大 基数 。 在 10.6 节 ， 当 仔细 考察 不 同方 法 的 性 能 时 ， 会 
考虑 这 一 点 。 
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如 果 我 们 设置 R = 256， 并 消除 对 空 桶 的 递归 调用 ， 那 么 程序 10.2 就 能 高 效 地 对 C 语 言 字符 
串 排 序 。 如 果 我 们 知道 所 有 字符 串 的 长 度 比 某 个 固定 长 度 要 小 ， 我 们 可 以 将 变量 bytesword 设 
为 该 长 度 ， 或 者 可 以 消除 对 标准 变 长 的 字符 串 进行 排序 时 对 bytesword 的 测试 。 对 于 字符 串 ， 
我 们 通常 可 以 执行 位 提取 操作 ， 像 单个 数组 那样 ， 如 我 们 在 10.1 节 讨论 的 。 通 过 调整 R 和 
bytesword (并 对 它们 的 值 进行 测试 ) ， 我 们 可 以 修改 程序 10.2， 使 它 可 用 于 处 理 包含 非 标准 
字母 或 有 限制 长 度 或 其 他 约定 格式 不 标准 的 字符 串 。 

字符 串 排 序 再 次 说 明了 正确 处 理 空 桶 的 重要 性 。 图 10-8 显 示 了 与 图 10-7 类 似 的 划分 过 程 ， 
不 过 清晰 地 显示 了 两 个 字母 的 单词 和 空 桶 。 在 本 例 中 ， 使 用 基数 26 对 两 个 字母 的 单词 进行 基 
数 排序 ， 因 此 每 步 中 有 26 个 桶 。 在 第 一 步 中 ， 没有 太 多 的 空 桶 ， 而 在 第 二 步 中 ， 大 部 分 桶 是 
空 的 。 

MSD 基 数 排序 函数 按 关 键 字 的 第 一 位 对 文件 进行 划分 ， 接 着 根据 各 个 值 对 子 文件 进行 递 
归 调 用 。 图 10-9 显 示 了 图 10-8 中 的 例子 的 MSD 基 数 排序 的 递归 调用 结构 。 该 调用 结构 和 一 个 
多 路 trie (multiway trie) 对 应 ， 是 图 10-4 中 二 进 制 快速 排序 trie 结 构 的 直接 推广 。 每 个 节点 对 
应 一 个 对 某 个 子 文件 进行 MSD 排 序 的 一 个 递归 调用 。 例 如 ， 树 根 标 以 o 的 根 的 左 子 树 对 应 着 对 
三 个 关键 字 of、on 和 or 组 成 的 子 文件 的 排序 。 





图 10-9 MSD 基 数 排序 递归 结构 


注 : 本 树 对 应 于 使 用 程序 10.2 的 方法 对 图 10-8 的 例子 进行 MSD 基 数 排序 的 递归 操作 过 程 。 如 果 文 件 的 大 小 是 0 或 
1， 吉 没 有 任何 递 知 调 用 。 否 则 ， 有 26 个 调用 ; 每 个 对 应 当前 字 节 的 一 个 可 能 的 值 。 

这 些 图 表明 : 在 对 字符 串 进 行 排 序 时 ， 会 产生 大 量 的 空 桶 。 在 10.4 节 中 ， 我 们 将 研究 一 种 
解决 的 方法 。 在 第 15 章 ， 我 们 会 仔细 研究 字符 串 处 理 程 序 中 的 树 结 构 的 用 途 。 通 常 ， 我 们 都 
对 数据 结构 进行 简化 ， 不 包括 与 空 桶 对 应 的 节点 和 将 标志 从 边缘 移 到 下 端的 节点 。 如 图 10-10 
所 示 ， 与 图 10-7 中 的 三 个 字母 的 MSD 基 数 排序 的 递归 调用 结构 (忽略 空 桶 ) 相对 应 。 例 如 ， 
根 节 点 标 以 j 的 根 的 子 树 对 应 着 对 四 个 关键 字 jam、jay、jot 和 joy 组 成 的 桶 的 排序 。 我 们 会 在 第 
15 章 中 详细 地 讨论 这 种 树 结构 的 特性 。 
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图 10-10 MSD 基 数 排序 的 递归 结构 (忽略 空 的 子 文件 ) 

注 : 这 里 的 MSD 基 数 排序 递归 结构 比 图 10-9 的 更 复杂 。 树 中 的 每 个 节点 标 以 某 个 关键 字 的 第 i 二 1 位 的 值 ，i 是 从 
节点 到 根 的 距离 。 树 中 的 每 个 从 根 到 底部 的 路 径 代表 了 一 个 关键 字 ; 将 路 径 中 的 节点 组 合 起 来 就 形成 了 关 

键 字 。 这 棵 树 对 应 于 图 10-7 中 的 三 个 字母 的 MSD 排 序 示 例 。 
对 于 关键 字 是 长 字符 囊 的 实际 应 用 使 用 MSD 基 数 排序 ， 得 到 最 大 效率 所 面临 的 挑战 是 处 
理 缺 乏 随机 性 的 数据 。 特 别 是 ， 关 键 字 中 包含 长 的 相等 或 不 需要 的 数据 ， 或 者 它们 中 的 一 部 
分 局 限 在 某 个 小 范围 中 。 例 如 ， 在 一 个 学 生 数据 信息 处 理 程序 中 ， 可 能 包含 毕业 年 份 (4 个 字 
节 ， 但 是 四 个 不 同 值 之 一 )、 州 的 名 字 (可 能 是 10 个 字 节 ， 不 过 是 50 个 不 同 的 值 之 一 )、 性 别 
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(一 个 字 节 ， 两 个 给 定 值 之 一 ) 以 及 姓名 (比较 像 随机 字符 串 ， 但 可 能 比较 长 ， 不 均匀 的 字母 
分 布 ， 在 定 长 域内 会 有 空格 ) 。 所 有 这 些 不 同 的 限制 在 用 MSD 基 数 排序 时 产生 大 量 的 空 桶 ( 见 
练习 10.23 ) 。 | 
”解决 这 个 问题 的 一 种 实用 方法 是 ， 研 制 一 种 访问 字 节 抽象 操作 的 更 复杂 的 实现 ， 将 所 有 
字符 串 排 序 情况 的 信息 都 考虑 进去 。 另 一 个 容易 实现 的 方法 是 桶 跨度 馈 发 式 法 ， 在 统计 过 程 
中 ,保存 非 空 桶 的 范围 的 最 大 值 和 最 小 值 ， 然 后 只 使 用 在 此 范围 的 桶 (可 能 还 有 一 些 特殊 情 
况 ， 如 0 或 空 桶 )。 这 种 安排 对 于 上 面 描述 的 例子 很 适合 。 例 如 ， 对 基数 256 的 文字 数字 数据 ， 
关键 字 中 有 一 部 分 数字 ， 与 各 位 对 应 的 非 空 桶 只 有 10 个 ， 对 关键 字 另 一 部 分 的 大 写字 母 ， 只 
有 26 个 非 空 桶 与 它们 对 应 。 
有 很 多 其 他 方法 试图 对 桶 跨度 启发 式 法 进行 扩展 〈 见 第 三 部 分 参考 文献 ) 。 例 如 ， 我 们 可 

以 将 非 空 的 桶 保存 在 辅助 数据 结构 中 ， 只 保存 对 这 些 桶 的 统计 及 递归 调用 。 这 样 做 〈 即 使 是 
桶 跨度 启发 式 法 自身 ) 在 这 种 情况 下 可 能 太 过 了 ， 因 为 除非 基数 很 大 或 文件 很 小 ， 否 则 所 节 
省 的 消耗 是 很 少 的 ， 而 对 这 两 种 情况 ， 我们 可 以 通过 使 用 一 个 较 小 的 基数 或 使 用 另 一 种 排序 
方法 来 提高 效率 。 我 们 所 能 节省 的 开销 和 通过 调整 基数 或 对 小 文件 转换 的 方法 所 节省 的 开销 

”是 一 样 的 ， 但 实现 起 来 没有 这 两 种 方法 简单 。 在 10.4 节 中 ， 我 们 会 讨论 另 一 个 版 本 的 快速 排 
序 ， 该 方法 能 高 效 地 解决 空 桶 的 问题 。 
练习 

>10.14 ” 夯 出 与 图 10-9 对 应 的 压缩 trie 结 构 〈 就 像 图 10-10 那 样 ， 不 含 空 桶 和 节点 中 的 关键 字 ) 。 
>10.15 和 图 10-10 对 应 的 完全 trie 中 共有 多 少 个 节点 ? 

>10.16 显示 使 用 MSD 基 数 排序 对 序列 now is the time for all good people to come the aid of 
their party 进 行 划分 的 关键 字 集 。 

。10.17 ”编写 一 个 执行 4 路 原 位 划分 的 程序 ， 如 在 关键 字 索 引 统计 中 那样 ， 统 计 每 个 关键 字 出 
现 的 频率 ， 然 后 使 用 类 似 程序 6.14 中 的 方法 来 移动 关键 字 。 

%10.18 编写 一 个 解决 R 路 划分 问题 的 程序 ， 使 用 练习 10.17 中 描述 的 方法 。 
10.19 ”编写 一 个 随机 产生 80 字 节 关 键 字 的 程序 。 使 用 该 程序 来 产生 NN 个 随机 关键 字 ， 然 后 使 
用 MSD 基 数 排序 对 这 些 关键 字 排 序 ，N = 10 3，10*，10”，10s。 输 出 每 次 排序 中 所 检查 的 关键 
字 的 总 字 节 数 。 

c10.20 在 练习 10.19 的 程序 中 ， 对 于 每 个 给 定 的 N 值 ， 所 期 望 访 问 最 右边 的 位 数 是 多 少 ? 如 果 
已 经 作 了 该 练习 ， 修 改 程序 来 记录 这 个 数量 ， 并 将 理论 结果 与 实际 结果 进行 比较 。 
10.21 ”编写 一 个 关键 字 产 生 程序 ， 通 过 混 洗 一 个 80 字 节 的 随机 序列 来 产生 关键 字 。 使 用 该 程 
序 产 生 N 个 随机 关键 字 ， 接 着 使 用 MSD 基 数 排序 对 它们 进行 排序 ，N = 10"，10`，10"，10'。 
将 得 到 的 结果 和 随机 情况 下 的 结果 进行 比较 ( 见 练习 10.19)。 
10.22 练习 10.21 中 ， 对 于 每 个 给 定 的 N 值 ， 在 程序 中 所 要 访问 到 的 最 右 的 位 数 是 多 少 ? 如 果 
已 做 了 该 练习 ， 将 理论 结果 与 实际 结果 进行 比较 。 
10.23 ”编写 一 个 程序 产生 30 字 节 的 随机 字符 串 的 关键 字 ， 这 些 字符 串 由 三 部 分 组 成 : 一 个 4 
字 节 的 域 ， 值 是 10 个 给 定 的 字符 串 之 一 ， 一 个 10 字 节 的 域 ， 值 是 50 个 给 定 的 字符 串 之 一 ， 一 
个 单字 节点 的 域 ， 值 是 2 个 给 定 值 之 一 ， 而 剩 下 的 15 个 字 节 保存 随机 的 左 对 称 字符 串 ， 可 以 看 
作 是 第 4 个 域 。 使 用 该 程序 产生 NN 个 随机 关键 字 ， 接 着 使 用 MSD 基 数 排序 对 它们 进行 排序 。 
N = 103，104，10 和 10。 输 出 所 检查 的 总 字 节 数 。 将 得 到 的 结果 和 使 用 随机 数 的 结果 进行 比 
较 ( 见 练习 10.19)。 
10.24 ”修改 程序 10.2， 实 现 桶 跨度 启发 式 算法 。 使 用 练习 10.23 中 的 数据 测试 你 的 程序 。 


> 
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10.4 三 路 基数 快速 排序 


另 一 种 使 用 快速 排序 进行 MSD 基 数 排序 的 方法 是 ， 对 关键 字 控 制 字 节 进 行 三 路 划分 ， 只 
在 中 间 子 文件 移动 到 下 一 个 字 节 (关键 字 的 控制 字 节 与 划分 元 素 的 相同 ) 。 这 种 方法 很 容易 实 
现 (实际 上 ， 一 条 描述 语句 加 上 程序 7.5 中 三 路 划分 的 代码 就 足够 了 )， 而 它 适合 于 不 同 的 环 
境 。 程 序 10.3 是 该 方法 的 一 个 完整 实现 。 
“程序 10.3 三 路 基数 快速 排序 
这 个 MSD 基 数 排序 的 代码 和 三 路 划分 的 快速 排序 的 基本 相同 (程序 7.5) ， 但 有 如 下 变化 ， 
(i) 对 关键 字 的 引用 变 成 对 关键 字 的 各 位 的 引用 ，(ii) 当前 字 节 作为 参数 加 入 到 递归 程序 
中 ; (i) 对 中 间 子 文件 的 递归 调用 移 到 下 一 个 字 节 。 在 进行 移 到 下 一 个 字 节 的 递归 之 前 ， 通 
过 检测 划分 值 是 否 为 0 来 避免 移动 越过 了 字符 串 的 结尾 。 当 划分 值 为 0 时 ， 左 子 文件 为 空 ， 
间 子 文件 对 应 于 程序 已 找到 的 那些 相同 的 关键 字 ， 右 边 子 文件 对 应 于 那些 较 长 的 需要 进一步 
处 理 的 字符 串 。 
#define ch(A) digit (A, D) 
void quicksortX(Item a[], int 1, int r, int D) 
{ 
int i, j, k, p, dq; int vy; 
if (r-1 <= M) { insertion(a, 1, r); return; } 
v= chlalr]); i = 1-1; j =r;p= 1-1; qd=r; 
while (i < j) 
t 
while (ch(a[++i]) < v) ; 
while (v < ch(a[--j])) if (j == 1) break; 
if (i > j) break; 
exch(a[i] , a[j]); 
if (ch(a[i])==v) { p++; exch(a[p], a[i]); } 
if (v==ch(a[j])) { q--; exch(a[j], a[q]); } 
了 
if (P == q) _ 
{t if (v != ’\0’) quicksortX(a, 1, r, D+1); 
return; } 
if (ch(a[i]) < v) i++; 
for (k = 1; k <= p; k++, j--) exch(a[xk] ，a[j]); 
for (k = Ti k >= q; k--, i++) exch(a[k] , a[i]); 
quicksortX(a, 1, j, D); 
if ((i == r) && (ch(a[i]) == Vv)) i++; 
if (v != \0’) quicksortX(a, j+1, i-1, D+1); 
quicksortX(a, i, r, D); 


} 








根本 上 ,三 路 基数 快速 排序 包括 根据 关键 字 的 开始 字符 对 文件 进行 排序 (适用 快速 排序 )， 
接着 对 剩 下 的 关键 字 递归 地 执行 这 一 方法 。 对 字符 串 进 行 排序 时 ， 该 方法 的 效率 类 似 于 普通 
的 快速 排序 和 MSD 基 数 排序 。 事 实 上 ， 它 可 以 看 作 是 两 个 算法 的 混合 物 。 

为 了 比较 三 路 基数 排序 与 标准 的 MSD 基 数 排序 ， 我 们 注意 到 三 路 基数 排序 只 把 文件 划分 
成 三 部 分 ， 并 没有 获得 快速 多 路 排序 的 好 处 ， 特 别 是 在 排序 的 早期 阶段 。 而 另 一 方面 ， 对 于 
稍 后 的 阶段 ，MSD 基 数 排序 会 含有 大 量 空 桶 ， 而 三 路 基数 排序 非常 适合 处 理 重 复 关键 字 、 关 
键 字 位 于 小 的 范围 ， 小 文件 以 及 一 些 MSD 基 数 排序 可 能 运行 慢 的 情况 。 更 重要 的 是 ， 划 分 操 
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作 适 合 于 在 关键 字 的 不 同 部 分 含有 非 随机 的 不 同类 型 的 关键 字 。 而 且 不 需要 使 用 辅助 数组 。 
如 果子 文件 的 数目 很 多 ， 这 种 方法 需要 额外 的 交换 操作 来 通过 三 路 划分 得 到 多 路 划分 的 效果 。 

图 10-11 显 示 了 使 用 该 方法 对 图 10-7 的 3 字母 单词 排序 问题 进行 操作 的 示例 。 图 10-13 显 示 
了 递归 调用 结构 。 每 个 节点 恰好 对 应 于 三 个 递归 调用 : 第 一 位 较 小 的 关键 字 ( 左 子 树 ) ， 第 一 
位 相等 的 关键 字 (中 间 子 树 ) ， 第 一 位 较 大 的 关键 字 ( 右 子 树 ) 。 


now gig ace ago ago 
for for bet bet ace 
tip dug dug and and 
ilk ilk cab ace bet 
dim dimdim cab 


tag ago ago caw 
jot and and cue 


sob fee egg egg 
nob cue cue dug 
Sky caw caw dim 


hut hut fee 
ace ace for 
bet bet few 





men cab ilk 


egg egg gig 
few few hut 








jay jay jam 
owl jot jay 
joy joy joy 
rap jam jot 





Eig Owl owl men 


Wee Wee now owl 
Was was nob nob 
cab men men now 





wad wad rap 





caw sky sky sky Sky 
cue nob was tip sob 





fee sob sob sob tip tar 
tap tap tap tap tap tap 
ago tag tag tag tag tag 


tar tar tar tar tar tip 








dug tip tip was 
and now Wee vwee 
jam rap wad wad 


图 10-11 三 路 基数 快速 排序 


注 : 我 们 把 文件 划分 成 三 部 分 : 开始 字母 是 从 a 到 I 的 单词 、 从 j 开 始 的 单词 及 从 k 到 z 开 始 的 单词 。 接 着 递归 执行 
排序 操作 。 
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图 10-12 三 路 基数 快速 排序 的 trie 节 点 示例 


注 : 三 路 基数 快速 排序 通过 执行 三 路 划分 来 减少 一 个 字 节 和 递归 地 对 其 他 位 的 操作 ， 来 解决 MSD 基 数 排序 中 的 
空 桶 问题 。 将 每 个 描述 MSD 基 数 排序 ( 见 图 10-9) 递归 结构 的 trie 中 的 M- 路 节点 替换 成 为 其 内 部 节点 表示 
每 个 非 空 桶 的 三 又 树 。 对 于 完整 的 树 (左边 )， 这 样 的 改变 会 花 党 些 时 间 ， 却 不 能 节省 更 多 的 空间 ， 但 对 空 
树 (右边 ) 来 说 ， 减 少 了 消耗 的 时 间 和 所 用 的 空间 。 
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图 10-13 三 路 基数 快速 排序 的 递归 结构 
注 : 本 树 结合 了 图 10-10 树 的 26 路 节点 及 三 又 二 进 制 搜索 树 ， 如 图 10-12 所 示 。 从 树 的 根部 到 结束 于 中 间 链 接 的 
树 的 底部 的 路 径 定义 了 文件 的 一 个 关键 字 。 图 10-10 包 含 了 1035 个 没有 描述 的 空 链接 而 本 例 中 显示 了 所 有 
的 155 个 空 链接 。 每 个 空 指针 对 应 一 个 空 的 桶 。 因 此 两 图 的 差别 表明 了 三 路 划分 算法 如 何 大 幅度 地 减少 
MSD 基 数 排序 中 遇 到 的 空 桶 数 月 。 
当 排 序 关 键 字 与 10.2 节 中 的 提取 数 符 合 时 ， 标 准 的 快速 排序 (以 及 第 6 章 至 第 9 章 的 其 他 排 
序 程序 ) 可 以 看 作 是 MSD 基 数 排序 ， 因 为 比较 操作 首先 访问 关键 字 的 最 高 位 〈 见 练习 10.3 )。 
例如 ， 如 果 关 键 字 是 字符 串 ， 关 键 字 不 同时 ， 比 较 函 数 应 该 只 访问 那些 控制 位 ， 如 果 关 
键 字 的 第 一 个 字 节 相同 ， 第 二 个 字 节 不 同 ， 则 比较 函数 访问 控制 前 2 位 ， 以 此 类 推 。 因 此 ， 标 
准 的 算法 可 以 自动 获得 一 些 与 MSD 基 数 排序 相同 的 好 处 ( 见 第 7.7 节 )。 最 重要 的 区 别 是 ， 当 
控制 位 相等 时 ， 标 准 算法 不 能 采取 一 些 特殊 的 相应 措施 。 事 实 上 ， 程 序 10.3 可 以 看 作 是 某 种 
快速 排序 算法 ， 在 进行 多 重 划 分 后 ， 保 存 数据 项 控制 位 的 相关 信息 。 在 小 的 子 文件 中 ， 在 执 
行 了 排序 中 的 大 部 分 比较 操作 后 ， 关 键 字 可 能 有 很 多 相等 的 控制 位 值 。 标 准 算 法 每 个 比较 操 
作 中 ， 都 必须 访问 所 有 的 字 节 ， 三 路 算法 则 不 需 这 样 做 。 
考虑 关键 字 较 长 〈 简 化 起 见 ， 假 设 定 长 ) 但 大 部 分 控制 字 节 完全 相同 的 情况 。 对 这 种 情 
况 ， 普 通 快速 排序 的 运行 时 间 与 字 长 度 和 2N ln N 的 积 成 正比 ， 然 而 基数 排序 的 运行 时 间 与 N 
和 字 长 的 积 ( 找 出 所 有 控制 位 相等 的 那些 ) 再 加 上 2N ln N (对 剩余 的 较 短 关键 字 进 行 排序 ) 
的 和 成 正比 。 也 就 是 说 ， 这 种 方法 可 以 比 普通 的 快速 排序 快 In N 倍 ， 只 统计 了 比较 操作 。 在 实 
际 排序 应 用 中 ， 有 很 多 关键 字 具 有 类 似 这 个 构造 例子 的 特征 〈 见 练习 10.25 ) 。 
三 路 基数 快速 排序 的 另 一 个 有 趣 特性 是 它 和 基数 大 小 没有 直接 关系 。 对 其 他 基数 排序 方 
法 来 说 ， 需 要 一 个 大 小 由 基数 值 决 定 的 辅助 数组 ， 而 且 要 确保 数组 的 大 小 不 会 远 远大 于 文件 
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大 小 。 对 于 本 方法 ， 不 需要 额外 的 表格 ， 采 用 非常 大 的 基数 〈 大 于 字 的 大 小 ) 使 该 方法 退化 
成 普通 的 快速 排序 ， 而 采用 基数 2 使 它 退化 成 二 进 制 快速 排序 ， 中 间 大 小 的 基数 可 以 高 效 地 处 
理 具 有 重复 关键 字 的 情况 。 

对 于 许多 实际 应 用 ， 我 们 可 以 研制 一 种 具有 杰出 性 能 的 混合 方法 ， 对 于 大 型 文件 ， 使 用 
全 在 MO 提 启 来 得 到 多 路 划分 的 优点， 对 于 小 型 文件 ， 使 用 三 路 基数 快速 排序 来 避免 大 

空 桶 的 负面 影响 。 

三 路 基数 排序 同样 适合 于 待 排序 的 关键 字 是 向 量 的 情况 。 也 就 是 说 ， 如 果 关 键 字 是 由 独 
立 的 部 分 (每 一 个 是 由 一 个 抽象 的 关键 字 ) 组 成 的 。 我 们 希望 关键 字 先 按照 第 一 个 部 分 排序 ， 
如 果 第 一 部 分 相等 ， 再 按 第 二 部 分 排序 ， 以 此 类 推 。 我 们 可 以 将 向 量 排 序 看 作 基 数 排序 的 推 
广 ， 其 中 R 可 取 任 意 大 小 。 当 对 程序 10.3 进 行 修改 以 适应 这 种 情况 的 时 候 ， 这 个 程序 被 称 为 多 
关键 字 快 速 排序 。 
练习 
10.25 对 于 d > 4， 假 设 关键 字 由 d 个 字 节 组 成 ， 最 后 4 个 字 节 是 随机 值 ， 其 余 字 节 的 值 为 0。 
对 大 小 为 N 的 大 型 文件 ， 进 行 三 路 基数 快速 排序 (程序 10.3) 和 普通 的 快速 排序 (程序 7.1)， 
估计 所 要 检查 的 字 节 数 ， 并 计算 它们 的 运行 时 间 比 率 。 

10.26 ”对 于 随机 64 位 关键 字 N = 10*，10*，105，10%， 执 行 三 路 基数 快速 排序 ， 字 节 大 小 为 何 
值 时 ， 执 行 时 间 最 短 ? 

“10.27 ”实现 一 个 对 链表 进行 三 路 基数 快速 排序 的 程序 。 

10.28 ”对 于 t 个 浮 点 数 构成 向 量 的 关键 字 ， 实 现 一 个 对 这 样 的 关键 字 进 行 多重 快 速 排序 的 程 
序 ， 使 用 练习 4.1 中 描述 的 浮 点 数 相等 性 测试 操作 。 

10.29 ”使 用 练习 10.19 的 关键 字 产 生 器 ， 对 于 N = 10?，104，10”，10*， 执 行 三 路 基数 快速 排 
序 。 并 把 它 的 性 能 与 MSD 基 数 排 序 的 性 能 进行 比较 。 

10.30 ”使 用 练习 10.21 的 关键 字 产 生 器 ， 对 于 N = 10*，10*，105，10s， 执 行 三 路 基数 快速 排 
序 。 并 把 它 的 性 能 与 MSD 基 数 排序 的 性 能 进行 比较 。 

10.31 使 用 练习 10.23 的 关键 字 产 生 器 ， 对 于 N = 10 ，10*，10 ，10“， 执 行 三 路 基数 快速 排 
序 。 并 把 它 的 性 能 与 MSD 基 数 排序 的 性 能 进行 比较 。 


10.5 LSD 基 数 排 序 


另 一 种 基数 排序 方法 是 从 右 到 左 检 查 字 节 。 图 10-14 显 示 了 如 何 扫 描 文件 3 遍 对 3 个 字母 的 
单词 进行 排序 。 根 据 最 后 的 字母 对 文件 进行 排序 〈 使 用 关键 字 索 引 统计 ) ， 接 着 根据 中 间 字 母 
对 文件 进行 排序 ， 最 后 根据 第 一 个 字母 进行 排序 。 

乍 看 起 来 ， 不 容易 使 得 该 方法 便利 可 行 。 事 实 上， 只 有 当 使 用 的 排序 方 靶 稳定 时 ， 该 方 
法 才 可 行 。 一 旦 确保 稳定 的 排序 方法 ， 就 可 以 容易 地 证 明 LSD 基 数 排序 的 高 效 性 : 在 根据 i 次 
试验 字 节 将 关键 字 排 好 序 后 〈 以 一 种 稳定 方法 ) ， 我 们 知道 文件 中 的 任何 两 个 关键 字 都 处 于 正 
确 的 顺序 ， 或 是 因为 ;个 试验 字 节 的 第 一 位 是 不 同 的 ， 对 该 位 进行 排序 就 能 将 它们 放 到 合适 的 
位 置 ， 或 是 因为 第 i 个 试验 字 节 的 第 一 位 是 相同 的 ， 在 这 种 情况 下 根据 稳定 性 就 能 断定 关键 字 
在 合适 的 位 置 。 换 一 种 解释 法 ， 如 果 一 对 关键 字 中 wi 位 未 检查 的 值 相等 ， 关 键 字 之 间 的 差别 
就 由 ;个 已 检查 的 ;位 决定 。 反 之 ， 如 果 w 一 :位 未 检查 的 值 不 相等 ， 那 么 已 经 检查 的 ;位 没有 影响 ， 
稍 后 的 一 遍 会 根据 更 明显 的 差异 来 正确 的 排序 。 
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图 10-14 LSD 基 数 排序 示例 
注 : 使 用 LSD 基 数 排序 在 三 遍 内 究 成 对 由 3 个 字符 构成 的 字 的 排序 。 


稳定 性 要 求 意 味 着 ， 例 如 二 进 制 快 速 排序 中 使 用 的 划分 方法 不 能 用 于 这 个 从 右 到 左 的 二 
和 过 锁 快速 排序 版 本 。 相 反 ， 关 键 字 索 引 统计 是 稳定 的 方法 ， 可 以 用 它 直 接 得 到 经 典 而 高 效 的 
算法 。 程 序 10.4 是 这 种 方法 的 一 个 实现 。 似 乎 需要 额外 的 数组 用 于 进行 分 配 ， 练习 10.17 和 练 
习 10.18 中 用 于 原 位 分 布 的 技术 是 以 牺 竹 稳定 性 来 避免 使 用 辅助 数组 。 

,程序 40.4 tSD 基 数 排 序 : 

该 程序 对 字 中 的 字 节 进行 关键 字 索 引 统计 ， 从 右 向 左 移动 。 关 键 字 索引 统计 实现 必须 是 
稳定 的 。 如 果 R=2 〈 这 样 bytesword 和 bitsword 相 等 ) ， 该 程序 是 直接 基数 排序 ， 它 从 右 向 左 ， 
一 位 一 位 的 基数 排序 ( 见 图 10-15 ) 。 

void radixLSD(Item a[] ，int 1, int r) 


int i, j, WwW, count[R+i]; 
for (w = bytesword-1l; w >= 0; YW--) 
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{ 
for (j = 0; j < Ri j++) count[j] = 0; 
for (i = 1; i <= Ir; i++) 
count [digit (a[i], w) + 1]++; 
for (j = 1; j < Ri j++) 
count [j] += count [j-1] ; 
for (i = 1; i <= r; i++) 
aux[count [digit(a[i] ，w)]++] = af[i]; 
for (i = 1; i <= r; i++) a[i] = aux[i-1]; 
} 
} 


LSD 基 数 排序 是 老式 卡片 排序 机 上 所 使 用 的 方法 。 那 样 的 机 器 可 以 根据 所 选 列 上 的 孔 的 
式样 ， 将 一 到 卡 片 分 布 到 10 个 桶 中 。 如 果 卡 片 中 有 些 数 字 在 列 的 一 个 特殊 集合 中 穿孔 ， 可 以 
通过 对 卡片 的 最 右 一 位 进行 检查 来 对 卡 进行 排序 ， 接 着 收集 卡片 并 按 顺 序 堆放 ， 然 后 移 到 下 
一 个 最 右 位 的 地 方 ， 以 此 类 推 ， 直 到 访问 到 第 一 位 。 实 际 上 卡片 的 堆放 是 一 个 稳定 的 过 程 ， 
关键 字 索 引 统计 排序 就 是 模仿 这 个 操作 。 这 个 版 本 的 LSD 基 数 排 序 不 仅 在 20 世 纪 50 年 代 和 60 
年 代 的 商业 应 用 中 很 重要 ， 它 还 被 许多 谨慎 的 程序 员 所 使 用 ， 他 们 把 程序 卡片 组 的 最 后 几 列 
的 序列 号 在 卡片 上 穿孔 ， 以 使 出 现 意外 时 ， 可 以 机 械 地 将 卡片 组 按 顺 序 复原 。 

图 10-15 描 述 了 二 进 制 LSD 基 数 排序 在 样本 关键 字 上 的 操作 ， 并 与 图 10-3 进 行 比较 。 对 这 
些 5 位 的 关键 字 ， 使 用 了 5 遍 排序 算法 来 完成 ， 从 右 到 左 遍历 关键 字 。 含 有 单个 关键 字 的 排序 
记录 表明 了 对 于 文件 的 划分 结果 ， 使 所 有 0 关键 字 的 记录 排 在 所 有 1 关键 字 的 记录 之 前 。 如 前 
所 述 ， 我 们 不 能 使 用 本 章 一 开始 在 程序 10.1 中 讨论 的 划分 策略 。 即 使 它 看 起 来 能 解决 同一 问 
题 ， 但 是 不 稳定 。 以 2 为 基 的 排序 方法 值得 一 看 ， 因 为 它 适 合 于 高 性 能 的 机 器 和 特殊 用 途 的 硬 
件 〈 见 练习 10.38) 。 在 软件 中 ， 我 们 使 用 尽 可 能 多 的 位 数 来 减少 操作 的 遍 数 ， 只 受 统计 中 所 
用 数组 大 小 的 限制 〈 见 图 10-16) 。 
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图 10-15 LSD (二 进 制 ) 基数 排序 示例 (显示 了 关键 字 的 位 ) 

注 ; 该 图 显示 了 对 示例 文件 进行 从 右 到 左 、 一 位 接 一 位 的 基数 排序 过 程 。 通 过 对 第 〈i-1) 列 进行 提取 操作 ( 稳 
定 的 ) ， 将 所 有 第 位 为 0 的 关键 字 调 到 所 有 第 i 位 为 1 的 关键 字 前 ， 这 样 就 产生 了 第 i 列 。 如 果 操 作 前 第 i-1) 
列 是 按 第 (i-1) 位 的 值 进行 排序 的 ， 那 么 在 操作 后 ， 第 i 列 是 校 尾 i 位 的 值 进行 排序 的 。 第 三 步 中 明确 显示 

了 关键 字 的 移动 过 程 。 | 
由 于 字符 串 中 有 变 长 的 关键 字 ， 一 般 很 难 将 这 个 LSD 过 程 应 用 到 字符 串 排序 中 。 对 于 
MSD 排 序 ， 可 以 根据 关键 字 的 开始 位 进行 区 分 ， 但 LSD 排 序 是 基于 固定 长 度 关 键 字 的 ， 控 制 
关键 字 只 在 最 后 一 遍 中 涉及 。 即 使 是 对 于 (长 的 ) 固定 长 度 关键 字 ，LSD 基 数 排序 仍然 对 关 
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键 字 的 右 部 分 做 了 不 必要 的 工作 。 因 为 如 我 们 所 看 到 的 ， 排 序 中 只 有 关键 字 的 左边 部 分 是 真 


正 有 用 的 。 在 10.7 节 中 ， 我 们 在 详细 讨论 了 基数 排序 的 特性 后 ， 会 给 出 这 个 问题 的 一 种 解决 
方法 。 


























图 10-16 LSD 基 数 排序 的 动态 特性 
注 : 该 图 显示 了 对 随机 8 位 关键 字 进 行 LSD 基 数 排序 的 过 程 ， 基 数 为 2 (左边 ) 和 4 (右边 )， 基 数 为 4 的 大 序 中 包 
人 金 了 基数 2 中 的 所 有 步骤 。 例 如 ， 当 剩 下 两 位 时 (左边 倒数 第 3 个 ， 右 边 倒数 第 2 个 ) ， 该 文件 包含 了 以 00、 
01、10、11 开 头 的 四 个 混合 的 有 序 子 文件 。 
练习 
10.32 使 用 练习 10.19 的 关键 字 产 生 器 ， 对 于 N = 10，104，105，105， 执 行 LSD 基 数 排序 。 
并 把 它 的 性 能 与 MSD 基 数 排序 的 性 能 进行 比较 。 
10.33 使 用 练习 10.21 和 10.23 的 关键 字 产 生 器 ， 对 于 N = 103，104， 105，105， 执 行 LSD 基 数 
排序 。 并 把 它 的 性 能 与 MSD 基 数 排序 的 性 能 进行 比较 。 
10.34 对 于 图 10-15 中 的 例子 ， 显 示 使 用 基于 二 进 制 快速 排序 划分 方法 的 LSD 基 数 排序 的 结 
果 (未 排序 )。 
>10.35 对 关键 字 now is the time for all good people to come the aid of their party， 使 用 LSD 基 
数 排序 ， 对 关键 字 的 头 两 位 控制 位 进行 操作 ， 显 示 操 作 结 果 。 
。10.36 ”研制 一 个 使 用 链表 进行 LSD 基 数 排序 的 程序 。 
“10.37 寻找 一 个 高 效 的 方法 : (i) 对 文件 中 记录 进行 重新 整理 ， 使 所 有 以 0 开始 的 关键 字 排 
在 所 有 以 1 开始 的 关键 字 的 前 面 ，(ii) 使 用 与 记录 数目 平方 根 成 比例 的 额外 空间 (或 者 更 
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少 ) ;， (站) 是 稳定 的 。 

。10.38 ”实现 对 32 位 字数 组 进行 排序 ， 只 能 使 用 以 下 抽象 操作 ， 给 定 某 位 的 位 置 ;， 和 指向 数 
组 a[k] 的 指针 ， 稳 定 地 对 a[k] ，a[k+1], …，a[k+63] 进 行 重 排 ， 使 所 有 第 i 位 是 0 的 字 排 在 第 i 位 
是 1 的 字 之 前 。 | 

10.6 基数 排序 的 性 能 特征 


对 于 w- 字 节 的 N 个 记录 执行 LSD 基 数 排序 ， 其 运行 时 间 与 Nw 成 正比 ， 因 为 算法 对 所 有 N 个 
关键 字 执 行 w 遍 。 这 一 分 析 结 果 与 输入 无 关 ， 如 图 10-17 所 示 。 
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注 : 该 图 描述 了 使 用 LSD 基 数 排序 对 包含 700 个 数据 项 的 随机 文件 、 高 斯 序列 、 接 近 有 序 序 列 、 几 乎 有 序 序列 、 
几乎 北 序 序列 和 随机 只 有 10 个 关键 字 的 文件 进行 操作 的 情况 (从 左 到 右 ) 。 运 行 时 间 与 输入 的 初始 顺序 有 关 。 
包含 相同 关键 字 的 三 个 文件 〈 第 一 、 第 三 和 第 四 都 是 1 到 700 之 间 的 整数 的 排列 ， 在 排序 接近 完成 时 ， 具 有 
类 似 的 特征 。 
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， 对 于 长 的 关键 字 和 短 的 字 节 ， 这 个 运行 时 间 可 与 N lg N 相 比 。 例 如 ， 如 果 我 们 使 用 二 进 制 
LSD 基 数 排 序 对 10 亿 个 32 位 的 关键 字 进 行 排序 ， 那 么 w 和 lg N 都 约 为 32。 对 于 长 的 字 节 和 短 的 
关键 字 ， 运 行 时 间 都 约 为 N。 例 如 ， 如 果 64 位 的 关键 字 使 用 16 位 的 基数 ， 那 么 w 为 4+， 这 是 一 
个 小 的 常数 。 

为 了 合理 地 比较 基数 排序 与 基于 比较 的 排序 算法 的 性 能 ， 我 们 需要 详细 说 明 关键 字 中 的 

节 数 ， 而 不 只 是 关键 字 的 数目 。 

性 质 10.1 基数 排序 最 坏 情 况 下 要 检查 所 有 关键 字 中 的 所 有 字 节 。 

换 句 话说 ， 由 于 它 所 花费 的 时 间 至 多 与 输入 的 数位 成 正比 ， 因 而 基数 排序 的 运行 时 间 是 
线性 的 。 这 一 观察 直接 可 由 考查 程序 而 得 : 每 位 数字 至 多 检查 一 次 。 对 于 我 们 考察 的 程序 ， 
当 所 有 关键 字 相 等 时 ， 发 生 最 坏 情况 。 国 

如 上 所 见 ， 对 于 随机 关键 字 以 及 其 他 很 多 的 情况 ，MSD 基 数 排序 的 运行 时 间 可 以 是 数据 
总 位 数 的 亚 线性 时 间 ， 因 为 不 需要 检查 关键 字 的 所 有 位 。 对 于 任意 长 的 关键 字 以 下 经 典 结 果 
成 立 : 

性 质 10.2 当 排 序 的 关键 字 是 随机 数 时 ， 二 进 制 快 速 排序 平均 检查 约 NN lg N 位 。 

如 果 文 件 大 小 是 2 的 笑 ， 而 且 位 是 随机 的 ， 那 么 我 们 期 望 一 半 的 控制 位 是 0， 一 半 的 控制 
位 是 1， 因 而 递归 方程 Cw = 2Cw + N 描 述 了 这 一 性 能 ， 如 我 们 在 第 7 章 论述 快速 排序 那样 。 并 
且 这 种 描述 并 不 完全 准确 ， 因 为 划分 位 于 中 心 只 在 平均 意义 下 成 立 (还 由 于 关键 字 中 的 位 数 
是 有 限 的 ) 。 然 而 ， 二 进 制 快 速 排序 的 划分 要 比 标 准 快 速 排序 更 接近 于 中 心 ， 因 而 对 运行 时 间 
起 着 决定 作用 的 项 就 等 同 于 划分 最 完美 的 情况 。 证 明 这 一 结果 的 详细 分 析 是 算法 分 析 中 的 一 
个 经 典 例子 ， 首 先 由 Knuth 在 1973 年 首次 提出 ( 见 第 三 部 分 参考 文献 )。 一 

这 一 结果 推广 了 MSD 基 数 排序 的 应 用 范围 。 然 而 ， 因 为 我 们 关心 的 是 总 的 运行 时 间 ， 而 

只 是 所 检查 的 关键 字数 ， 我 们 必须 注意 ， MSD 基 数 排序 部 分 运行 时 间 是 和 基数 的 大 小 成 
证 纪 ， 而 与 关键 字 无 关 。 

性 质 10.3 对 于 大 小 为 N 的 文件 ， 运 行 基 为 R 的 MSD 基 数 排序 ， 至少 需要 2N + 2R 步 。 

MSD 基 数 排序 至 少 包 含 一 次 遍历 关键 字 索 引 统计 ， 而 关键 字 索 引 统计 至 少 包 含 对 记录 扫 
描 两 遍 (一 遍 是 统计 ， 一 遍 是 分 布 ) ， 总 共 至 少 2N 步 ， 还 有 两 遍 对 统计 数 的 访问 (一 遍 是 将 统 
计数 初始 化 为 0， 另 一 遍 是 确定 子 文 件 结束 的 位 置 )， 总 共 至 少 2R 步 。 国 

这 一 特性 非常 明显 ， 不 需 阐 述 。 但 它 是 我 们 理解 MSD 基 数 排序 的 根本 。 特 别 是 ， 它 说 明 
不 能 因为 N 值 较 小 就 断定 运行 时 间 较 短 ， 因 为 R 可 能 比 N 要 大 得 多 。 简 而 言 之 ， 对 小 的 子 文件 
应 该 使 用 一 些 其 他 方法 。 这 个 观察 结果 是 我 们 在 10.3 节 最 后 讨论 的 空 桶 问题 的 解决 方法 。 例 
如 ， 如 果 R 是 256，N 是 2， 只 进行 元 素 比 较 的 基本 方法 就 比 MSD 基 数 排序 要 快 128 倍 。MSD 基 
数 排序 的 递归 结构 确定 了 递归 程序 会 对 于 很 多 小 文件 调用 自己 。 因 此 ， 在 本 例 中 ， 如 果 忽 略 
空 桶 问题 ,会 使 整个 基数 排序 的 效率 降低 128 倍 。 对 于 中 间 情 况 〈 例 如, 假设 R = 256, N = 64)， 
开销 情况 没 这 么 巨大 ， 但 依然 很 显著 。 使 用 播 和 排序 并 不 明智 ， 因 为 它 期 望 的 比较 次 数 N2/4 
开销 太 高 。 忽 赂 空 桶 也 不 明智 ， 因 为 空 桶 数量 巨大 。 解 决 这 个 问题 最 简单 的 方法 是 使 用 小 于 
文件 大 小 的 基数 。 

性 质 10.4 如果 基数 总 是 小 于 文件 大 小 ，MSD 基 数 排序 的 所 需 的 平均 步 数 在 N logr N 的 一 
个 小 的 常数 因子 内 〈 关 键 字 由 随机 字 节 组 成 ) ， 在 最 坏 情况 下 ， 步 数 在 关键 字 总 字 节 数 的 一 个 
常数 因子 之 内 。 

最 坏 情 况 下 的 结果 直接 可 从 之 前 的 讨论 得 出 ， 而 性质 10.2 的 分 析 可 归纳 出 平均 情况 下 的 结 
果 。 对 大 R， 因 子 logr N 较 小 ， 因 此 总 的 运行 时 间 和 NN 成 正比 。 例 如 ， 如 果 R = 2%*， 那 么 对 于 
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所 有 N < 2*，logr N 小 于 3， 该 值 几 乎 包含 了 所 有 大 小 的 实际 文件 。 国 

在 性 质 10.2 中 所 做 的 ， 由 性 质 10.4 可 得 到 重要 的 实际 特性 ; 对 于 较 长 的 关键 字 ，MSD 基 数 
排序 实际 上 是 随机 关键 字 的 总 位 数 的 亚 线性 函数 。 例 如 ， 对 100 万 个 64 位 随机 关键 字 进 行 排序 ， 
大 约 只 需要 检查 关键 字 的 20 至 30 的 控制 位 ， 或 者 少 于 一 半 的 数据 。 

性 质 10.5 对 任意 长 的 N 个 关键 字 ， 三 路 基数 快速 排序 平均 使 用 2N ln N 次 字 节 比较 。 

有 两 种 有 益 的 方式 来 理解 这 个 结果 。 第 一 种 ， 假 设 该 方法 与 对 控制 位 进行 划分 的 快速 排 
序 相同 ， 接 着 (递归 地 ) 对 子 文件 使 用 相同 的 操作 ， 因 此 整个 操作 的 运行 时 间 和 普通 快速 排 
序 的 相同 但 是 是 对 单个 位 值 的 比较 ， 而 不 是 对 整个 关键 字 的 比较 。 第 二 种 ， 假 设 使 用 图 
10-12 中 提 到 的 方法 ， 由 性 质 10.3， 算 法 的 期 望 运 行 时间 为 N logs N 乘 上 一 个 因子 2 ln R， 因 为 
对 于 R 个 字 节 的 排序 ， 快 速 排序 所 需 步 数 为 2R ln R， 这 与 用 trie 表 示 的 相同 字 节 需要 R 步 形成 对 
照 。 完 整 的 证 明 省 略 〈 见 第 三 部 分 参考 文献 ) 。 国 

性 质 10.6 ”对 于 w 位 的 N 个 记录 进行 排序 ，LSD 基 数 排序 需要 w / lg R 遍 ， 使 用 额外 空间 存 
放 R 个 统计 数 (和 重 排 文 件 的 缓冲 区 )。 

由 实现 直接 可 得 这 个 实事 的 证 明 结 果 。 特 别 是 ， 如 果 我 们 取 R = 2”“”， 要 进行 4 遍 线性 排序 。 

国 





练习 

10.39 ”假设 输入 文件 中 1 到 1000 的 数字 每 个 有 1000 个 ， 每 个 是 32 位 字 。 描 述 如 何 利用 文件 的 
特点 编写 一 个 快速 基数 排序 程序 。 

10.40 ”假设 输入 文件 中 ， 有 1000 个 不 同 的 32 位 数字 ， 每 个 数字 有 1000 个 。 描 述 如 何 利 用 文件 
的 特点 编写 一 个 快速 基数 排序 程序 。 

10.41 使 用 三 路 基数 快速 排序 对 定 长 的 字 节 字符 串 进行 排序 ， 在 最 坏 情况 下 ， 最 多 需要 检查 
多 少 字 节 数 ? 

10.42 对 于 N = 10 ，10'，105，10*， 对 于 同一 长 字符 串 的 文件 ， 比 较 使 用 三 路 基数 快速 排序 
和 标准 快速 排序 所 检查 的 总 字 节 数 。 
co10.43 对 包含 N 个 关键 字 的 文件 A，AA，AAA，AAAA，AAAAA，AAAAAA，.…… 执行 
MSD 基 数 排序 和 三 路 基数 快速 排序 ， 给 出 所 要 检查 的 字 节 数 。 


10.7 亚 线性 时 间 排序 


从 10.6 节 得 到 的 分 析 结 果 的 主要 结论 是 ， 基 数 排序 的 运行 时 间 可 以 是 关键 字 总 位 数 的 亚 线 
性 时 间 。 在 这 一 节 里 ， 我 们 考虑 这 一 事实 蕴含 的 实际 结果 。 

10.5 节 中 给 出 的 LSD 基 数 排序 的 实现 使 得 bytesword 人 遍历 文件 。 使 R 很 天， 我 们 得 到 一 种 高 
效 的 排序 方法 ， 只 要 N 也 是 很 大 ， 且 有 空间 存储 R 个 统计 数 。 如 在 性 质 10.5 中 证 明 所 提 到 的 那 
样 ， 一 种 合理 的 选择 是 使 lg R (每 字 节 的 位 数 ) 为 字 大 小 的 1/4， 以 使 基数 排序 执行 4 遍 关 键 字 
索引 统计 过 程 。 检 查 每 个 关键 字 的 每 个 字 节 ， 但 每 个 关键 字 只 有 4 个 数字 。 这 个 例子 直接 对 应 
着 很 多 计算 机 的 组 织 结构 : 一 个 结构 有 32 位 字 ， 每 个 字 包 含 4 个 8 位 字 节 。 我 们 从 字 中 提取 字 
节 ， 而 不 是 位 ， 这 种 方法 在 很 多 计算 机 上 很 高 效 。 现 在 ， 每 个 关键 字 索 引 统 计 遍 历 是 线性 的 ， 
而 且 是 因为 只 执行 4 遍 ， 整 个 排序 是 线性 的 一 一 这 肯定 是 我 们 在 排序 中 希望 得 到 的 最 好 性 能 。 

事实 上 ， 只 执行 两 遍 关 键 字 索 引 统计 就 可 以 了 。 可 以 这 样 做 是 因为 我 们 利用 了 事实 ， 如 果 
只 使 用 w- 位 的 关键 字 的 w/2 个 控制 位 ， 文 件 已 基本 有 序 了。 正如 我 们 在 快速 排序 中 所 做 的 那样 ， 
在 文件 基本 有 序 时 ， 使 用 插入 排序 ， 可 以 高 效 地 完成 快速 排序 任务 。 这 种 方法 是 对 程序 10.4 的 
一 种 细小 修改 。 为 了 使 用 关键 字 的 一 半 控 制 位 从 右 到 左 进行 排序 ， 我 们 只 需 简单 地 将 外 部 for 
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循环 从 bytesword/2-1 开 始 ， 而 不 是 从 bytesword-1 开 始 。 接 着 ， 我 们 使 用 常规 插入 排序 对 得 到 
的 基本 有 序 的 文件 进行 排序 。 图 10-3 和 图 10- 1 有 力 地 说 明了 一 个 控制 位 有 序 的 文件 使 用 插 人 排 
序 的 很 好 结果 。 在 图 10-3 的 第 4 列 中 ， 揪 入 排 rt 

序 只 使 用 了 6 次 交换 实现 对 文件 的 排序 。 图 10- 
18 表 明 ， 对 于 一 个 其 一 半 控 制 位 有 序 的 大 型 文 
件 ， 使 用 插入 排序 也 能 进行 高 效 的 排序 。 

对 于 某 些 文件 大 小 ， 需 要 使 用 辅助 数组 ， 
还 使 用 一 些 额 外 空间 ， 来 获得 执行 一 遍 关 键 字 
索引 统计 的 过 程 。 例 如 ， 对 100 万 个 32 位 随机 
关键 字 进 行 排序 ， 可 以 先 执 行 一 遍 对 20 个 控 
制 位 的 关键 字 索 引 统 计 过程 ， 接 着 使 用 插入 排 
序 完成 排序 。 要 做 到 这 样 ， 只 需要 (1 百 万 ) 
计数 器 的 空间 一 一 这 要 比 辅助 数组 所 需 的 空间 
少 得 多 。 使 用 这 种 方法 等 价 于 使 用 标准 的 基 
R= 22 的 MSD 基 数 排序 ， 虽 然 本 质 上 对 小 文件 
应 使 用 小 基数 ( 见 性 质 10.4 之 后 的 讨论 )。 

基数 排序 中 的 LSD 方 法 被 广泛 使 用 ， 因 为 
它 的 控制 结构 非常 简单 ， 而 且 它 的 基本 操作 适 
合 机 器 语言 实现 ， 这 点 可 以 直接 改编 到 有 特殊 
用 途 的 高 性 能 硬件 中 。 在 这 种 环境 中 ， 运 行 完 
整 的 LSD 基 数 排序 可 能 是 最 快 的 。 如 果 使 用 指 
针 ， 就 需要 存放 NN 个 链 域 (及 R 个 统计 数 ) 的 
空间 来 执行 LSD 基 数 排序 ， 这 点 投资 可 以 产生 
一 个 对 随机 文件 只 执行 3 到 4 遍 排 序 的 方法 。 
负 字 来 引 统 计 程 序 的 内 福 环 中 于 包含 的 指令 比 。 1， 对 MD 位 妆 生 LSD 关 的 志和 

字 索 引 统计 程序 的 内 循环 含 的 指令 0 
快速 排序 或 归并 排序 的 内 循环 中 的 指令 要 多 很 pr 
多 。 该 特性 的 实现 表明 在 很 多 情况 下 ， 我 们 所 关键 字 的 随机 文件 ， 该 图 将 执行 6 遍 LSD 基 数 排序 























描述 的 亚 线性 时 间 方法 可 能 不 比 快速 排序 的 运 。 (左边 ) 和 执行 3 遍 LSD 关 数 排 序 后 距 一 个 格 入 排序 
行 时 间 少 很 多 。 (右边 ) 进行 比较 。 后 者 的 策略 几乎 快 两 倍 。 


通用 的 算法 如 快速 排序 比 基 数 排序 要 应 用 的 广泛 ， 因 为 它们 适用 于 各 种 应 用 问题 。 曾 述 
这 一 点 的 主要 原因 是 ， 基 数 排序 基于 的 关键 字 提 取 方 法 没有 我 们 在 第 6 章 至 第 9 章 使 用 的 算法 
(比较 操作 ) 那么 普遍 。 例 如 ， 为 排序 实用 程序 安排 接口 程序 的 一 个 基本 方法 是 让 客户 端 提供 
比较 函数 。 这 是 C 语 言 库 中 qsort 使 用 的 接口 程序 。 这 样 的 安排 不 仅 让 客户 端 可 以 使 用 关于 复 
杂 关 键 字 的 特定 信息 来 实现 一 个 快速 比较 操作 ， 还 可 以 使 用 不 包含 关键 字 的 顺序 关系 来 进行 
排序 。 在 第 21 章 中 ， 我 们 会 讨论 这 样 的 一 个 算法 。 

当 可 以 使 用 任意 算法 时 ， 是 使 用 快速 排序 还 是 使 用 本 章 所 讨论 的 各 种 基数 排序 算法 (及 
相关 版 本 的 快速 排序 ) ， 这 点 就 不 仅 和 应 用 程序 的 特点 有 关 〈 如 关键 字 、 记 录 和 文件 大 小 )， 
还 和 编程 及 机 器 环境 的 特性 有 关 ， 这 些 特 性 与 访问 的 效率 和 位 及 字 节 的 使 用 有 关 。 表 10-1 和 
10-2 的 实验 结果 验证 了 我 们 提出 的 各 种 基数 排序 的 线性 或 亚 线性 时 间 的 性 能 ， 这 些 结果 使 这 
些 排序 方法 适合 于 各 种 实际 应 用 中 。 
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表 10-1 基数 排序 算法 的 实验 研究 (整数 关键 字 ) 


对 N 个 32 位 随机 整数 的 文件 ， 这 些 基数 排序 (都 包含 一 个 当 N 小 于 16 时 改 为 执行 插入 排序 的 中 断 ) 的 相关 运行 实 
践 表 明基 数 排序 可 以 是 最 快 的 排序 程序 ， 如 果 小 心 使 用 的 话 。 当 我 们 对 小 文件 使 用 大 基数 时 ，MSD 基 数 排序 的 效率 
很 低 ， 不 过 对 基数 进行 修改 ,使 之 小 于 文件 大 小 就 可 以 解决 这 个 同 题 。 对 整数 关键 字 操 作 最 快 的 方法 是 对 一 般 控 制 
位 进行 排序 的 LSD 基 数 排序 ， 通 过 仔细 处 理 内 部 循环 还 可 以 进一步 提高 效率 ( 见 练习 10.45)。 











4 位 字 节 8 位 字 节 16 位 字 节 
N Q RE 
M 工 M L L* M L Mi* 
12 500 2 7 il 28 4 2 52 5 8 
25 000 5 14 21 29 8 4 54 8 1S 
50 000 10 49 43 35 18 9 58 15 39 
100 000 21 77 92 47 39 18 67 30 77 
200 000 49 133 185 72 81 39 296 56 98 
400 000 102 278 377 581 169 88 119398 110 297 
800 000 223 919 732 6064 328 203 1532492 219 2309 
其 中 ， 


Q 快速 排序 ， 标 准 (程序 7.1) 

M MSD 基 数 排序 ， 标 准 (程序 10.2) 

LL LSD 基数 排序 (程序 10.4) 

M* MSD 基 数 排序 ， 基 数 根据 文件 大 小 设置 
L* 对 MSD 位 执行 LSD 基 数 排序 





表 10-2 基数 排序 算法 的 实验 研究 (字符 串 ) 


这 些 对 Moby Dick 的 前 N 个 字 执 行 各 种 排序 算法 (除了 堆 排 序 之 外 ， 在 N 小 于 16 时 ， 都 包含 一 个 插入 排序 的 中 断 ) 
的 相对 时 间 ， 表 明 MSD 优 先 的 方法 对 于 字符 串 数 据 是 高 效 的 。 在 三 路 排序 中 对 小 子 文件 执行 插入 排序 的 效果 不 如 其 
他 的 排序 方法 ， 而 且 除 非 修改 插 和 排序， 避免 访问 关键 字 的 控制 位 部 分 ， 否 则 没有 任何 效果 ( 见 练习 10.46)。 








N Q T M F R X XX* 

12 500 7 6 9 9 8 6 5 
25 000 14 12 18 19 15 11 10 
50 000 34 26 39 49 34 25 24 
100 000 83 61 87 114 71 57 54 


其 中 : 

Q 快速 排序 ， 标 准 (程序 7.1) 

T 使 用 三 路 划分 的 快速 排序 (程序 7.5) 
M 归并 排序 (程序 8.2) | 

F 使 用 Floyd 改 进 的 堆 排序 〈 见 9.4 节 ) 

R MSD 基 数 排序 (程序 10.2) 

X 三 路 基数 快速 排序 (程序 10.3) 

X* 三 路 基数 快速 排序 (包含 中 断 程 序 ) 





练习 
>10.44 ”对 关键 字 的 控制 位 执行 LSD 基 数 排序 ， 然 后 使 用 插入 排序 完成 排序 任务 的 主要 缺点 是 
什么 ? 
“10.45 ”编写 一 个 程序 ， 对 32 位 关键 字 执 行 LSD 基 数 排序 ， 在 内 循环 中 使 用 尽 可 能 少 的 指令 。 
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10.46 ”实现 三 路 基数 快速 排序 ， 对 小 文件 使 用 插入 排序 ， 在 比较 中 不 使 用 那些 已 知 是 相等 的 
控制 位 。 

10.47 ”给 出 100 万 个 随机 32 位 的 关键 字 ， 确 定 关键 字 的 大 小 ， 使 总 的 运行 时 间 最 短 ， 其 中 对 
前 两 个 字 节 执行 LSD 基 数 排序 ， 接 着 使 用 插入 排序 来 完成 任务 。 

10.48 对 于 10 亿 个 64 位 的 关键 字 ， 回 答 练习 10.47。 

10.49 执行 3 遍 LSD 基 数 排序 ， 回 答 练习 10.48。 


第 11 章 特殊 用 途 的 排序 方法 


排序 方法 是 许多 应 用 系统 的 关键 组 件 。 通 常 需 要 采取 特别 措施 ， 使 排序 尽 可 能 快 或 者 能 
够 处 理 大 型 文件 。 我 们 可 能 遇 到 高 性 能 增强 的 计算 机 系统 ， 或 者 遇 到 专门 为 排序 设计 的 具有 
特殊 用 途 的 硬件 ， 或 者 遇 到 基于 某 种 新 型 结构 设计 的 计算 机 系统 。 在 这 些 情况 下 ， 我 们 对 待 
排 数 据 所 做 的 操作 的 相对 开销 ， 其 隐 含 假设 可 能 无 效 。 在 这 一 章 里 ， 我 们 分 析 儿 个 可 在 各 种 
机 器 上 高 效 运行 的 排序 方法 的 例子 ， 还 将 分 析 强 加 在 高 性 能 硬件 上 的 几 个 不 同 限制 的 例子 ， 
以 及 实际 中 有 利于 实现 高 性 能 排序 的 几 种 方法 。 

任何 新 的 计算 机 结构 最 终 都 要 支持 高 效 的 排序 方法 。 实 际 上 ， 排 序 在 历史 上 是 作为 评价 
新 结构 的 基准 测试 方法 ， 因 为 它 既 重 要 又 很 好 理解 。 我 们 希望 不 只 是 了 解 哪 种 已 知 算法 在 新 
机 器 上 运行 最 快 和 为 什么 快 ， 还 要 知道 新 型 机 器 的 特定 特征 能 否 被 某 种 新 算法 利用 。 为 了 开 
发 一 种 新 的 算法 ， 我 们 定义 一 种 封装 了 实际 机 器 的 主要 属性 的 抽象 机 器 ， 接 着 在 抽象 机 上 设 
计 和 分 析 算 法 ， 然 后 实现 、 测 试 算法 ， 并 对 最 佳 算法 和 模型 进行 求 精 。 我 们 利用 以 往 的 经 验 ， 
包括 我 们 在 第 6 章 至 第 10 章 所 看 到 的 一 般 机 器 上 的 许多 方法 。 但 是 抽象 机 强加 的 限制 有 助 于 我 
们 把 注意 力 放 到 真正 的 开销 上 ， 并 清楚 认识 到 不 同 算法 适合 不 同 的 机 器 。 

一 方面 ， 我 们 会 考虑 只 允许 比较 一 交换 操作 的 低层 模型 。 另 一 方面 ， 我 们 会 考虑 在 较 慢 
的 外 部 介质 上 或 者 独立 的 并 行 处 理 器 上 读 写 大 块 数据 的 高 级 模型 。 

首先 ， 我 们 分 析 Batcher 坷 偶 归 并 排序 (odd-even mergesort)。 它 是 归并 排序 的 一 种 版 本 ， 
基于 分 治 归 并 算法 ， 只 使 用 比较 一 交换 操作 ， 用 完美 混 洗 (perfect-shuffle) 和 完美 弟 混 洗 
(perfect-unshuffle) 操作 进行 数据 移动 。 这 些 方法 很 有 趣 ， 除 了 排序 还 可 用 于 解决 许多 问题 。 
接 下 来 ， 我 们 分 析 作 为 排序 网 的 Batcher 方 法 。 排 序 网 Come network) 是 一 种 低层 排序 硬件 
的 简单 抽象 。 网 络 由 互 连 的 比较 器 (comparator) 组 成 ， 它 是 能 够 执行 比较 -交换 操作 的 模块 。 

另 一 种 重要 的 抽象 排 序 问题 是 外 部 排 (external sorting) 问题 ， 其 中 待 排序 的 文件 太 大 
而 不 能 放 入 内 存 。 访 问 每 个 记录 的 开销 是 巨大 的 ， 因 此 ， 我 们 将 使 用 抽象 模型 ， 记 录 按 照 大 
块 形式 写 入 外 部 设备 和 从 外 部 设备 读 出 。 我 们 考 虚 外 部 排序 的 两 种 算法 ， 并 使 用 这 个 模型 比 
较 这 两 种 算法 。 

最 后 ， 我 们 考虑 并 行 排序 (parallel sorting) 。 这 种 情况 下 ， 待 排序 的 文件 分 布 在 几 个 独立 
的 并 行 处 理 器 中 。 我 们 定义 一 种 简单 的 并 行 机 模型 ， 然 后 分 析 Batcher 方 法 在 其 上 的 高 效 解决 
方案 。 我 们 使 用 同一 基本 算法 来 解决 一 个 高 层 问 题 和 一 个 低层 问题 ， 使 抽象 能 力 令 人 信服 。 

本 章 中 的 抽象 机 很 简单 ， 但 是 值得 研究 ， 因 为 它们 封装 了 特定 排序 应 用 中 最 关键 的 特定 
约束 。 低 层 的 排序 硬件 必须 由 简单 组 件 构成 ， 外 部 排序 一 般 要 求 按 块 访问 大 型 数据 文件 ， 因 
为 串 行 访问 要 比 随 机 访问 更 高 效 ， 并 行 排序 会 涉及 处 理 器 之 间 的 通信 约束 。 一 方面 ， 我 们 不 
能 确定 机 器 模型 完全 对 应 某 种 实际 机 器 ， 另 一 方面 ， 我 们 考虑 的 抽象 不 仅 使 我 们 从 理论 上 得 
到 关于 性 能 方面 的 局 限 性 的 基本 信息 ， 而 且 给 出 了 实际 使 用 的 有 趣 算法 。 


11.1 Batcher 奇 偶 归 并 排序 


开始 之 前 ， 我 们 考虑 只 基于 两 种 抽象 操作 的 排序 方法 ， 这 两 种 操作 是 比较 一 交换 操作 和 完 
美 混 洗 操作 (以 及 它 的 逆 操 作 ， 完 美 送 混 洗 )。 算 法 是 由 Batcher 于 1968 年 研制 的 ， 称 为 
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Batcher 夺 偶 归 并 排序 。 使 用 混 洗 操作 、 比 较 一 交换 操作 和 双 递 归 实 现 算法 是 很 简单 的 任务 。 
但 要 理解 算法 为 什么 能 运行 ， 以 及 混 洗 和 递归 算法 如 何 进行 低层 操作 却 是 一 项 挑战 性 的 任务 。 
我 们 在 第 6 章 遇 到 的 比较 一 交换 操作 ， 这 里 讨论 的 某 些 基本 排序 方法 可 以 根据 这 个 抽象 操作 
更 简明 地 表达 出 来 。 现 在 ， 我 们 对 那些 只 对 数据 进行 比较 一 交换 操作 的 方法 感 兴趣 。 标 准 的 比 
较 操 作 去 掉 了 : 比较 一 交换 操作 并 不 返回 结果 ， 因 而 程序 无 法 采取 依赖 于 具体 数据 值 的 行动 。 
定义 11.1 非 适 应 性 排序 算法 是 这 样 一 种 算法 , 它 所 执行 的 操作 序列 只 依赖 于 输入 的 个 数 ， 
而 不 依赖 于 关键 字 的 值 。 

”在 这 一 节 里 ， 我 们 的 确 执行 一 些 只 进行 数据 重 排 的 操作 ， 比 如 交换 和 完美 混 洗 ， 正 如 在 
11.2 节 看 到 的 那样 ， 但 它们 不 是 主要 的 。 非 适应 性 的 方法 等 价 于 排序 的 直线 (straight-line) 
程序 .它们 可 以 简单 表示 为 所 要 执行 的 比较 一 交换 操作 序列 。 例 如 ， 序 列 

compexch(a[0] , a[1i]) 

compexch(a[1] , a[2]) 

compexch(a[0], a[1]) 
是 对 三 个 元 素 排序 的 一 个 直线 程序 。 我 们 在 算法 表示 中 使 用 循环 、 混 洗 和 其 他 高 级 操作 以 体 
现 简 洁 和 经 济 ， 但 研制 算法 的 目标 是 定义 compexch 操 作 的 一 个 固定 序列 ， 它 能 对 N 个 关键 字 
排序 。 不 失 一 般 性 ， 我 们 可 以 假设 关键 字 是 1 至 和 N 之 间 的 整数 ( 见 练习 11.4)。 要 知道 一 个 直线 
程序 是 否 正确 ， 我 们 必须 证 明 它 对 这 些 值 的 每 种 可 能 排列 进行 排序 ( 见 练习 11.5)。 

第 6 章 至 第 10 章 考虑 的 排序 算法 中 ， 没 
有 几 个 是 非 适 应 性 的 算法 。 它 们 都 使 用 1ess 
或 其 他 方法 比较 关键 字 的 大 小 ， 因 而 依赖 关 
键 字 的 值 采用 不 同行 为 。 一 个 例外 是 冒 泡 排 
序 ( 见 6.4 节 )， 它 只 使 用 了 比较 一 交换 操作 。 
Pratt 的 希 尔 排序 算法 ( 见 6.6 节 ) 是 另 一 种 
非 适 应 性 的 方法 。 

程序 11.1 给 出 了 其 他 抽象 操作 的 实现 ， 
包括 完美 混 洗 和 完美 逆 混 洗 ， 图 11-1 给 出 了 
完美 混 洗 和 完美 逆 混 洗 的 例子 。 完 美 混 洗 重 
排 数 组 的 方式 与 专家 重 排 一 堆 牌 的 方式 相 
同 : 牌 被 分 成 相同 的 两 半 ， 然 后 从 各 半 堆 牌 
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图 11-1 完美 混 洗 和 完美 逆 混 洗 
注 : 要 进行 完美 混 洗 ( 左 图 ) ， 我 们 首先 取 文 件 中 的 第 一 


中 交替 地 取出 牌 进行 混 洗 。 我 们 总 是 从 一 堆 
牌 中 的 上 半 部 分 取 第 一 张 牌 。 如 果 牌 的 张 数 
是 偶数 ， 那 么 两 部 分 的 牌 数 相同 ， 如 果 牌 的 


张 数 是 奇数 ， 那 么 多 余 的 那 张 牌 在 上 半 部 分 . 


的 最 后 。 完 全 逆 混 洗 正 相 反 : 我 们 进行 逆 混 
洗 的 过 程 是 交替 地 把 一 半 牌 的 上 部 与 另 一 半 
牌 的 底部 进行 混 洗 。 


个 元 素 ， 接 着 取 另 一 半 的 第 一 个 元 素 ， 然 后 取 文 件 的 
第 二 个 元 素 ， 再 取 另 一 半 的 第 二 个 元 素 ， 以 此 类 推 。 
自 顶 向 下 考虑 从 0 开始 编号 的 元 素 。 前 一 半 的 元 素 到 
偶数 编号 的 位 置 ， 后 一 半 的 元 素 到 奇数 编号 的 位 置 。 
要 进行 一 个 完美 弟 混 洗 ( 右 图 )， 操 作 正 好 相反 : 偶 
数 编号 位 置 上 的 元 素 到 前 半 部 分 ， 奇 数 编号 位 置 上 的 
元 素 到 后 半 部 分 。 


程序 11.1 完美 泥 洗 和 完美 逆 混 洗 
shuffle 函 数 通过 子 数组 分 裂 ， 然 后 交替 每 一 半 中 的 元 素 ， 实 现 对 子 数组 aL1] ，…，a[r] 进 
行 重 排 ， 前 半 部 分 的 元 素 到 结果 中 偶数 编号 的 位 置 ， 后 半 部 分 的 元 素 到 结果 中 奇数 编号 的 位 置 。 
unshuff1le 函 数 的 操作 正 相 反 。 偶 数 编号 位 置 上 的 元 素 到 结果 中 的 前 半 部 分 ， 奇 数 编号 位 
置 上 的 元 素 到 结果 中 的 后 半 部 分 。 我 们 仅 在 偶数 个 元 素 的 子 数组 上 使 用 这 些 函 数 。 
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shuffle(itemType a[], int 1, int r) 
{ int i, j, m= (l+r)/2; 
for (i=1,j=0; i <=r; it+=2, j++) 
{ aux[i] = a[l+j]; aux[i+1] = a[lm+i+j]; } 
for ( = 1; i <= r; i++) a[i] = aux[i]; 
} 
unshuffle(itemType a[], int 1, int r) 
{ int i, j, m = (1l+r)/2; 
for (i=1,j=0; i<=r; it+=2, j++) 
{ aux[l+j] = a[i]; aux[m+i+j] = a[i+1]; } 
for (i = 1; i <= IT; i++) a[i] = aux[i]; 


} 


Batcher 的 排序 方法 就 是 8.3 节 自 顶 向 下 的 归并 排序 ， 差 别 是 不 采用 第 8 章 的 适应 性 的 归并 
实现 ， 而 是 使 用 Batcher 奇 偶 归 并 ， 它 是 一 种 非 适 应 性 的 自 顶 向 下 的 递归 归并 。 程 序 8.3 并 没有 
访问 数据 ， 因 而 我 们 使 用 非 适应 性 的 归并 隐 含 着 整个 排序 是 非 适 应 性 的 。 

我 们 在 这 一 节 中 及 11.2 节 中 隐 含 假设 待 排序 的 数据 项 数 是 2 的 敌 。 接 着 ， 我 们 总 是 使 用 
M2， 而 不 管 N 是 奇数 还 是 偶数 。 这 一 假设 是 不 切实 际 的 ， 当 然 ， 程 序 和 例子 涉及 其 他 文件 的 
大 小 ， 但 是 大 大 简化 了 讨论 。 我 们 在 11.2 节 的 末尾 回 到 这 个 问题 。 

Batcher 归 并 自身 是 一 种 分 治 递归 方法 。 要 进行 1-1 归 并 ， 我 们 使 用 一 次 比较 一 交换 操作 。 
否则 ， 要 进行 N-N 归 并 ， 通 过 逆 混 洗 得 到 两 个 N2 一 N/2 的 归并 问题 ， 然 后 递归 求解 得 到 两 个 有 
序 文 件 。 混 洗 这 些 文件 ， 我 们 得 到 一 个 接近 有 序 的 文件 ， 所 需要 的 是 在 元 素 2i 和 2i+1 之 间 进 行 
N12 一 1 次 独立 的 比较 一 交换 操作 ，1 <i<N/2 一 1。 图 11-2 说 明了 这 一 过 程 。 从 这 个 描述 可 见 ， 
程序 11.2 的 实现 是 直接 的 。 





图 11-2 自 顶 向 下 Batcher 奇 偶 归 并 示例 


注 : 要 归并 A GINOR ST 与 AEELMPXY, 我 们 从 一 个 送 混 洗 操 作 开 始 ， 它 建立 两 个 约 为 一 半 规 模 的 独立 
的 归并 问题 (第 二 行 显示 ): 我 们 必须 在 数组 的 前 一 半 归 并 AIO 5S 与 AE MX， 在 数组 的 后 一 半 归 并 G N R 
T 与 B L PY。 递 归 地 解决 这 些 子 问题 后 ， 我 们 混 洗 这 些 问 题 的 解 (倒数 第 二 行 显示 ) ， 通 过 EE 与 A、G 与 E、 
工 与 I、N 与 M、P 与 O、R 与 S， 以 及 了 与 X 的 比较 一 交换 操作 完成 排序 。 
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en “程序 11.2 ”Batcher 知 个 归 并 《递归 版 本 ) ， 、 
”这 个 递归 程序 实现 了 一 一 种 抽象 的 原 位 归并 ， 使 用 程序 11.1 中 的 shuff1e 和 unshuff1e 操 作 ， 
管 它们 不 是 关键 所 在 。 程序 11.3 是 该 程序 的 一 个 自 底 向 上 的 非 递归 版 本 , 并 去 掉 了 混 洗 操作 。 
我 们 这里 卫 要 二 兴业 的 是 这 个 类 现 为 5 尖 直 直人 让 全 本 刘 这 人 
mergeTD(itemType a[], int 1, int r) 
{ int i, m= (1+r)/2; 
if (r == 1+1) compexch(a[1] a[r]); 
if (r < 1+2) return; 
unshuffje(a, 1, r); 
mergeTD(a, 1, m); 
mergeTD(a, m+1i, r); 
shuffle(a, 1, r); 
for (i = 1+1; i < r; i+=2) 
compexch(a[i], a[i+1]); 


} 


“程序 11.3 Batcher 奇 个 归并 《 非 递 归 版 本 ) 
Batcher 奇 偶 归 并 的 实现 简洁 而 神秘 ( 它 假设 文件 大 小 N 是 2 的 宕 ) 。 我 们 可 以 通过 与 它 的 
递归 版 本 ( 见 程序 11.2 和 图 11-5) 进行 对 照 来 理解 它 完成 归并 的 过 程 。 它 在 lg N 次 遍历 内 完成 
归并 过 程 ， 这 些 遍 历 由 统一 且 独 立 的 比较 一 交换 指令 组 成 。 


mergeBU(itemType a[], int 1, int 7) 
{ int i, j, Kk, N = r-l+1; 
for (k = N/2; k > 0; k /= 2) 
for (j = k % (N/2); j+k < N; j += (k+k)) 
for (i = 0; i < k; i++) 
compexch(a[l+j+i], a[l+j+i+k] ); 
} 


为 什么 这 种 方法 可 以 对 所 有 可 能 输入 排列 进行 排序 ? 答案 不 是 那么 明显 的 。 经 典 证 明 方 
法 是 一 种 间接 方法 ， 它 依赖 于 非 适应 性 排序 程序 的 一 般 特 征 。 

性 质 11.1 (0-1 原理 ) 如 果 输 入 人 多 为 0 或 1 时 ， 一 个 非 息 应 性 的 程序 产生 排 好 序 的 输出 ， 
那么 对 于 输入 是 任意 的 关键 字 的 情况 ,仍然 可 以 产生 排 好 序 的 输出 。 

见 练 习 11.7。 国 

性 质 11.2 Batcher 夺 偶 归 并 (程序 11.2) 是 一 种 高 效 的 归并 方法 。 

使 用 0-1 原 理 ， 我 们 只 检查 当 输入 都 是 0 或 1 时 ， 该 方法 进行 正确 地 归并 。 假 设 第 一 个 子 文 
件 中 有 i 个 0， 第 二 个 子 文件 中 有 j 个 0。 这 一 性 质 的 证 明 需 要 检查 4 种 情况 ， 取 决 于 i 和 hj 是 奇数 还 
是 偶数 。 如 果 它 们 都 是 偶数 ， 那 么 两 个 归并 子 问题 都 有 i/2 个 0 的 一 个 文件 和 j/2 个 0 的 一 个 文件 ， 
因而 这 两 个 归并 结果 中 都 有 (i + 站 2 个 0。 混 洗 后 ， 得 到 一 个 排 好 序 的 0-1 文 件 。 当 ;为 偶数 ，j 汶 
奇数 时 ,或 者 当 i 为 奇数 ，j 为 偶数 时 ， 这 个 0-1 文 件 在 混 洗 后 也 是 有 序 的 。 但 当 i 和 hj 都 是 奇数 时 ， 
我 们 把 (i+ 站/2+1 个 0 的 文件 和 (i+t 站 /2 一 1 个 0 的 文件 混 洗 后 结束 ， 因 而 混 洗 后 的 0-1 文 件 有 i+j 一 1 个 
0， 一 个 1， 一 个 0， 接 着 是 N 一 i 一 j 一 1 个 1 ( 见 图 11-3)， 在 最 终 阶段 期 间 其 中 一 个 比较 器 完成 排 

序 过 程 。 图 

我 们 实际 上 并 不 需要 混 洗 数据 。 而 是 对 于 N， 通 过 改变 compexch 和 shuff1e 的 实现 来 维持 

下 标 并 间接 引用 数据 ( 见 练习 11.12)， 可 以 使 用 程序 11.2 和 程序 8.3 输 出 直线 排序 程序 。 或 者 ， 


288 解 三 部 分 排序 





我 们 可 以 让 程序 输出 比较 一 交换 指令 来 利用 原始 输入 〈 见 练习 11.13) 。 我 们 可 以 把 这 些 技术 
应 用 到 任何 非 适 应 性 的 排序 方法 ， 用 交换 、 混 洗 或 类 似 操 作 达 到 重 排 数据 的 目的 。 对 于 
Batcher 归 并 ， 算 法 的 结构 是 如 此 简单 ， 以 至 于 我 们 可 以 直接 开发 一 种 自 底 向 上 的 实现 ， 正 如 
我 们 在 11.2 池 中 看 到 的 那样 。 





图 11-3 0-1 归 并 的 四 种 情况 


注 : 这 4 个 例子 每 个 都 由 5 行 组 成 ， 它 们 是 : 0-1 归 并 问题 ; 北 混 洗 操 作 的 结果 ， 产 生 两 个 归并 问题 ; 递归 完成 
归并 的 结果 ; 混 洗 结果 ; 基 一 偶 比 较 结 有 果 。 晤 后 阶段 仅 当 0 的 个 数 在 两 个 输入 文件 中 是 基数 时 才 执 行 交 撞 
操作 。 

练习 
>11.1 给 出 混 洗 操作 和 逆 混 洗 操 作 在 关键 字 E A SYQUESTION 上 的 结果 。 
11.2 ”归纳 程序 11.1 实 现 h- 路 混 洗 和 逆 混 洗 。 对 于 文件 大 小 不 是 h 售 数 时 ， 解 释 你 的 策略 。 
。11.3 不 使 用 辅助 数组 ， 实 现 混 洗 和 逆 混 洗 操作 。 
。11.4 显示 对 N 个 不 同 关 键 字 排序 的 直线 程序 可 以 对 有 相同 元 素 的 N 个 关键 字 排 序 。 
>11.5 显示 课本 中 给 出 的 直线 程序 如 何 对 整数 1、2 和 3 组 成 的 6 个 排列 中 的 每 个 排列 进行 排序 。 
c11.6 给 出 对 4 个 元 素 排序 的 直线 程序 。 
“11.7 证明 性 质 11.1。 提 示 : 证 明 如 果 程 序 不 能 对 某 些 具有 任意 关键 字 的 输入 数组 进行 排序 ， 
那么 存在 某 个 它 不 能 排序 的 0-1 序 列 。 
>11.8 使 用 程序 11.2， 显 示 对 关键 字 AEQSUYEIN O ST 进行 归并 的 过 程 ， 风 格 如 同 图 11-2 
中 的 示例 。 
>11.9 ”对 于 关键 字 AESYEINOQSTU,， 回答 练习 11.8。 
o11.10 ”对 于 关键 字 1001110000010100， 回答 练习 11.8。 
11.11 ”实验 比较 Batcher 归 并 排序 的 运行 时 间 与 标准 的 自 顶 向 下 的 归并 排序 (程序 8.3 和 程序 
8.2) 的 运行 时 间 ，N = 103，104，105 和 105。 
11.12 给 出 compexch、shuffle 和 unshufflie 的 具体 实现 ， 使 程序 11.2 和 程序 8.3 成 为 一 个 间 
接 排序 操作 。 
co11.13 ”给 出 compexch、shuffle 和 unshuffle 的 具体 实现 ， 使 程序 11.2 和 程序 8.3 对 于 给 定 的 N 
值 ， 输 出 对 个 元 素 排序 的 直线 程序 。 你 可 以 使 用 辅助 全 局 数组 来 记录 下 标 。 
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11.14 如果 我 们 把 归并 的 第 二 个 文件 逆序 ， 我 们 就 得 到 一 个 bitonic 序 列 ， 如 8.2 节 中 的 定义 。 
改变 程序 11.2 中 的 最 后 循环 ， 使 其 从 1 开始 ， 而 不 是 1+1 开 始 ， 把 这 个 程序 变 成 一 个 对 bitonic 序 
列 排 序 的 程序 。 使 用 这 种 方法 显示 对 关键 字 AESQUYTSONIE 归 并 的 过 程 ， 风 格 如 同 图 
11-2 中 的 示例 。 

“11.15 证 明 练 习 11.14 中 描述 的 修改 过 的 程序 11.2 可 对 任何 bitonic 序 列 进行 排序 。 


11.2 排序 网 


研究 非 适应 性 排序 算 革 的 最 简单 的 模型 是 只 能 通过 比较 一 交换 操作 访问 数据 的 抽象 机 。 这 
样 的 机 器 称 为 排序 网。 排序 网 包括 原子 比较 一 


交换 模块 或 称 做 比较 器 ， 它 们 连 在 一 起 ， 能 够 Fe nt rr 

实现 进行 完全 排序 的 能 力 。 A A “二 * 主 ?十 
图 11-4 显 示 了 4 个 关键 字 的 一 个 排序 网 

通常 我 们 把 N 个 数据 项 的 排序 网 画 成 N 条 水 平 图 11-4 排序 网 


线 的 一 个 序列 , 用 比较 器 把 这 些 线 对 连接 起 来 。 注 : 关键 字 在 网 络 的 直线 中 从 左 到 右 移 动 。 如 果 需 要 ， 
我 们 认为 待 排序 的 关键 字 从 右 到 左 扫描 过 网 a 
络 ， 无 论 何 时 遇 到 比较 器 ， 如 果 需 要 则 交换 ， 面 的 两 条 线 上 交换 ，A 和 DD 在 下 面 的 两 条 线 上 交接 ， 
把 数值 较 小 的 放 在 上 面 。 接着 是 A 和 B， 以 此 类 推 ， 使 关键 字 从 上 到 下 接 有 

在 按照 这 种 模型 构造 实际 的 排序 机 之 前 ， 序 方法 排列 。 在 这 个 例子 中 ， 除 了 第 4 个 比较 器 ， 

先 要 解决 很 多 细节 的 问题 。 例 如 ， 对 输入 进行 其 他 比较 器 都 进行 了 交换 。 这 个 网 络 可 对 任何 4 个 
编码 的 方法 尚未 明确 。 一 种 方法 是 把 图 11-4 中 关键 字 的 任何 排列 进行 排序 。 
的 每 列 看 作 一 组 直线 ， 每 条 直线 保存 数据 的 1 位 ， 因 而 一 个 关键 字 的 所 有 位 同时 流 过 一 列 。 另 
一 种 方法 是 让 比较 器 沿 着 一 条 直线 一 次 读 取 输入 的 一 位 (首先 读 最 高 位 )。 同 时 时 间 尚 未 确定 ，: 
这 些 机 制 必须 保证 在 比较 器 的 输入 准备 好 之 前 ， 比 较 器 不 能 开始 操作 。 排 序 网 是 一 种 很 好 的 
抽象 ， 因 为 它们 允许 我 们 把 实现 因素 从 高 级 设计 的 考虑 中 分 离 出 来 ， 如 最 小 化 比较 器 数目 。 
此 外 ， 正 如 我 们 在 11.5 节 中 看 到 的 那样 ， 排 序 网 抽象 不 仅 在 电路 实现 中 应 用 ， 还 有 许多 其 他 
用 处 。 

排序 网 的 另 一 种 重要 的 应 用 就 是 作为 并 行 计 算 的 模型 。 如 果 两 个 比较 器 没有 使 用 相同 的 
输入 线 ， 我 们 假设 它们 可 在 同一 时 刻 操 作 。 例 如 ， 图 11-4 的 网 络 显示 了 4 个 元 素 可 在 3 个 并 行 
步 内 完成 排序 。 在 第 一 步 0-1 比 较 器 和 2-3 比 较 器 可 同时 执行 ， 在 第 二 步 0-2 比 较 器 和 1-3 比 较 器 
可 同时 执行 ， 在 第 三 步 1-2 比 较 器 完成 排序 过 程 。 给 定 任 一 网 络 ， 不 难 把 比较 器 分 成 并 行 阶段 
(parallel stage) 的 一 个 序列 ， 每 一 阶段 由 一 组 能 同时 执行 的 比较 器 组 成 〈 见 练习 11.17)。 对 
于 高 效 的 并 行 计算 ， 我 们 的 挑战 是 设计 一 个 并 行 阶段 尽 可 能 少 的 网 络 。 

对 于 每 个 N， 程 序 11.2 直 接 对 应 一 个 归并 网 络 ,， 但 考 虚 一 种 直接 的 自 底 向 上 构造 也 是 有 好 
处 的 ， 如 图 11-5 所 示 。 为 了 构造 一 个 大 小 为 N 的 归并 网 络 ， 我 们 使 用 大 小 为 N/2 的 两 个 相同 网 
络 ， 一 个 网 络 表示 偶数 编号 的 直线 ， 另 一 个 网 络 表 示 奇 数 编号 的 直线 。 因 为 比较 器 的 两 个 集 
合并 不 相交 ， 我 们 可 以 重 排 它们 来 交替 扫描 两 个 网 络 。 最 后 我 们 完成 网 络 的 构造 ， 比 较 器 在 1 
和 2、3 和 4 等 之 间 。 奇 偶 交 替 替 代 了 程序 11.2 的 完美 混 洗 。 这 些 网 络 可 以 正确 归并 的 证 明 如 同 
性 质 11.1 和 性 质 11.2 给 出 的 证 明 ， 使 用 了 0-1 原 理 。 图 11-6 显 示 了 归并 操作 的 示例 。 

程序 11.3 是 一 个 没有 混 洗 的 Batcher 归 并 的 自 底 向 上 实现 ， 它 对 应 图 11-5 的 网 络 。 这 个 程序 
是 一 个 简洁 而 精致 的 原 位 归并 函数 ， 它 最 好 理解 为 网 络 的 一 种 可 选 表 示 ， 虽 然 正 确 地 完成 了 
归并 任务 的 直接 证 明 很 有 趣 。 我 们 将 在 本 节 结 尾 分 析 这 样 的 一 种 证 明 。 
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图 11-5 Batcher 奇 偶 归 并 网 络 


注 : 对 于 4 条 直线 (上 图 )、8 条 直线 (中 图 ) 和 16 条 直线 (下 图 ) 的 不 同 网 络 表 示 显 示 出 网 络 的 递归 结构 。 左 
图 是 大 小 为 N 的 网 络 构造 的 直接 表示 ， 它 由 大 小 为 N/2 的 两 个 网 络 (一 个 网 络 表示 偶数 编号 的 直线 ， 另 一 个 
网 络 表 示 肯 数 编号 的 直线 ) 及 线 1 和 2、3 和 4、5 和 6 等 之 间 的 比较 器 序列 组 成 。 右 图 是 由 左 图 的 网 络 导 出 的 
简单 网 络 ， 把 相同 长 度 的 比较 器 分 为 一 组 ; 这 样 的 分 组 是 可 能 的 ， 因 为 我 们 可 以 移动 奇数 编号 直线 上 的 比 
较 器 穿 过 偶数 编号 的 直线 ， 而 不 产生 任何 影响 。 
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图 11-6 自 底 向 上 Batcher 归 并 示例 
注 : 当 去 掉 所 有 混 洗 后 ， 对 于 我 们 的 例子 ，Batcher 归 并 可 达 25 个 比较 一 交换 操作 ， 这 里 已 描述 出 这 些 操作 。 比 
较 一 交换 操作 分 成 独立 的 4 个 阶段 ， 每 个 阶段 之 间 有 固定 的 偏 移 量 。 
图 11-7 显 示 了 Batcher 奇 偶 排 序 网 。 它 是 使 用 标准 递归 归并 排序 构造 方法 ， 由 图 11-5 中 的 
归并 网 构建 而 成 。 这 个 构造 过 程 有 两 个 递归 过 程 : 一 次 递归 用 于 归并 网 ， 另 一 次 递归 用 于 排 
序 网 。 虽 然 它们 不 是 最 优 的 (我们 将 简明 地 讨论 最 优 网 络 ) ， 但 这 些 网 络 都 是 高 效 的 。 
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图 11-7 Batcher 奇 偶 排 序 网 络 


注 : 这 个 32 条 线 的 排序 网 络 由 两 个 16 条 线 的 相同 网 络 组 成 ， 由 4 个 8 条 线 的 相同 网 络 组 成 ， 以 此 类 推 。 从 右 向 左 
读 取 ， 我 们 可 以 按 自 项 向 下 的 方式 看 这 个 结构 :32 条 线 的 排序 网 由 一 个 16-16 归 并 网 络 ， 后 跟 两 个 16 条 线 的 
排序 网 (一 个 表示 上 半 图 ， 另 一 个 表示 下 半 图 ) 组 成 。16 条 线 的 每 个 网 络 由 一 个 8-8 归 并 网 络 ， 后 跟 两 个 8 条 
线 的 排序 网 组 成 ， 以 此 类 推 。 从 左 向 右 读 取 ， 我们 可 以 按 自 底 向 上 的 方式 看 这 个 结构 : 比较 器 的 第 一 列 创 
建 了 大 小 为 2 的 有 序 子 文件 ; 接着 ， 我 们 得 到 2-2 归 并 网 络 ， 它 创建 了 大 小 为 4 的 有 序 子 文 件 ; 然后 ，4-4 归 并 
网 络 创建 了 大 小 为 8 的 有 序 子 文件 ， 以 此 类 推 。 
性 质 11.3 ”Batcher 夺 ; 偶 排 序 网 大 约 有 N(lg N)74 个 比较 器 ， 可 在 (1g N)”/2 个 并 行 步 内 完成 
排序 。 
归并 网 络 需 要 大 约 lg N 个 并 行 步 ， 排 序 网 需要 1 + 2+ … + lg N 步 ， 或 大 约 需 要 (lg N)22 个 
并 行 步 。 比 较 器 的 步 数 留 作 练 习 ( 见 练习 11.23)。 - 
在 程序 8.3 的 标准 归并 排序 内 使 用 程序 11.3 中 的 归并 函数 给 出 一 种 简洁 原 位 排序 方法 ， 它 
是 非 适应 性 的 ， 并 使 用 OUvdg 和 N)) 个 比较 一 交 换 操作 。 我 们 还 可 以 选择 把 递归 从 归并 排序 中 去 
掉 ， 实 现 一 个 直接 完全 排序 的 自 底 向 上 版 本 ， 正 如 程序 11.4 中 显示 的 那样 。 程 序 11.3， 这 个 程 
序 很 好 理解 ， 可 看 作 图 11-7 的 网 络 的 另 一 种 表示 。 程 序 11.3 的 实现 中 增加 了 一 个 循环 和 一 个 测 
试 ， 因 为 归并 和 排序 具有 同样 的 递归 结构 。 为 了 按照 自 底 向 上 的 方式 把 长 为 2% 的 有 序 文件 序 
列 归并 成 为 长 为 2* 的 有 序 文件 序列 ， 我 们 使 用 完全 归并 网 络 ， 但 只 包含 那些 完全 落 入 子 文件 
内 的 比较 器 。 这 个 程序 可 能 获得 了 最 简洁 非 平凡 的 排序 实现 奖 ， 它 很 可 能 是 我 们 想 要 使 用 高 
性 能 结构 特性 来 开发 小 文件 的 高 速 排序 算法 (或 构建 一 个 排序 网 ) 所 选择 的 方法 。 如 果 我 们 
不 能 看 到 我 们 所 考虑 的 递归 实现 以 及 网 络 的 结构 ， 要 理解 程序 如 何 排序 和 怎样 排序 会 是 一 件 
艰巨 的 任务 。 


“程序 11:4 Bateher 痢 覃 淹 序 ( 非 递 为 版 本 ) ， 


Batcher 奇 偶 排 序 的 实现 直接 对 应 图 11. 7 表示 的 网 络 。 它 分 成 若干 阶段 ， 用 变量 p 表 示 。 当 
p 为 N 时 ， 最 后 阶段 是 Batcher 奇 偶 归 并 。 当 p 为 N/2 时 ， 倒 数 第 二 阶段 是 奇偶 归并 ， 它 消除 了 第 
一 阶段 和 所 有 跨越 NMX2 值 的 比较 器 。 当 p 为 MMX4 时 ， 倒 数 第 三 阶段 是 奇偶 归并 ， 它 消除 前 两 阶段 
和 所 有 跨越 N/4 值 的 倍数 的 比较 器 ， 以 此 类 推 。 

void batchersort (itemType a[], int 1, int r) 

{ int i, j, k, p, N = r-1+1; 
for (p=i;p<N;Pp+=p) 
for (Kk =p; k > 0; k /= 2) 
for (j = k%p; j+k < N; j += (k+k)) 
for (i = 0; i < k; i++) 
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if (j+i+k < N) 
if ((j+i)/ (p+p) == (jt+i+k)/(p+p)) 
compexch (a[l+j+i] , a[l+j+i+k]); 
} 


通常 在 N 不 是 2 的 害 时 ， 采 用 分 治 法 有 两 种 选择 ( 见 练习 11.24 和 练习 11.21)。 我 们 可 以 分 
为 两 半 〈 自 顶 向 下 ) 或 按 小 于 和 N 的 2 的 最 大 次 畴 进行 分 割 〈( 自 底 向 上 )。 后 者 对 于 排序 网 有 点 简 
单 ， 因 为 它 等 价 于 对 大 于 或 等 于 N 的 2 的 最 小 次 割 构建 一 个 完全 网 络 ， 然 后 只 使 用 前 N 条 线 ， 
且 只 使 用 连接 这 些 线 两 端的 比较 器 。 这 种 构造 高 效 性 的 证 明 是 很 简单 的 。 假 设 未 用 的 直线 有 
观察 哨 关键 字 ， 它 们 大 于 网 络 中 的 其 他 任何 关键 字 。 那 么 ， 这 些 直线 上 的 比较 器 永远 不 会 交 
换 ， 因 而 去 掉 它们 没有 影响 。 实 际 上 ， 我 们 可 以 使 用 较 大 网 络 中 的 任何 N 条 相 邻 直线 集 : 考虑 
在 顶部 忽略 掉 的 直线 ， 它 们 有 较 小 的 观察 哨 ， 还 有 底部 忽略 掉 的 直线 ， 它 们 有 较 大 的 观察 哨 。 
所 有 这 些 网 络 大 约 有 N (lg N)”/4 个 比较 器 。 

排序 网 的 理论 有 一 个 有 趣 的 历史 ( 见 第 三 部 分 参考 文献 )。 找 出 比较 器 尽 可 能 少 的 网 络 的 
问题 是 由 Bose 在 1960 年 之 前 提出 的 ， 称 为 Bose-Nelson 问 题 。Batcher 归 并 网 络 是 关于 这 个 问题 
的 第 一 种 解决 方法 ， 一 度 ， 人 们 猜测 这 种 方法 是 最 优 的 。Batcher 归 并 排序 网 是 最 优 的 ， 因 而 
任何 潜在 具有 较 少 比较 器 的 排序 网 必定 不 是 用 递归 归并 排序 构造 出 来 的 。 直 到 1983 年 Ajtai、 
Komlos 和 Szemeredi 证 明了 O(N log NA) 个 比较 器 的 排序 网 





的 存在 性 ， 科 学 家 们 才 阅 明了 找 最 优 排序 网 的 问题 。 然 pe 
而 ，AKS 网 络 是 一 种 数学 上 的 构造 ， 根 本 不 实用 。 < 一 一 广 
Batcher 网 络 仍然 是 最 好 的 实用 网 络 。 

完美 混 洗 和 Batcher 网 络 的 联系 可 使 我 们 通过 考虑 算 
法 的 另 一 种 版 本 来 完善 对 排序 网 的 研究 。 如 果 我 们 混 洗 pe 


Batcher 奇 偶 归并 的 直线 ， 我 们 就 得 到 由 所 有 比较 器 连接 
相 邻 直线 的 网 络 。 图 11-8 说 明 的 这 个 网 络 ， 对 应 程序 11.2 
混 洗 实现 的 网 络 。 有 时 称 这 种 互联 模式 为 蝶 形 网 络 。 图 
中 显示 的 还 有 相同 直线 图 的 另 一 种 表示 法 ， 它 甚至 提供 
了 一 种 更 为 统一 的 模式 ， 它 只 涉及 全 混 洗 。 

图 11-9 显 示 了 说 明 潜在 结构 的 方法 的 另 一 种 解释 。 首 
先 ， 我 们 把 一 个 文件 写 在 另 一 个 文件 的 下 方 ， 接 着 我 们 
比较 这 些 垂直 相 邻 的 元 素 ， 并 在 需要 把 较 大 者 放 在 较 小 
者 的 下 面 时 进行 交换 。 接 下 来 ， 我 们 把 每 行 一 分 为 二 ， 图 11-8 在 Batcher 奇 偶 归 并 中 混 洗 
隔离 出 一 半 ， 然 后 对 第 二 行 的 数 和 第 三 行 的 数 执行 比较 一 注 : 把 程序 11.2 的 直接 实现 作为 排序 网 可 
交换 操作 。 比 较 不 会 涉及 其 他 的 行 ， 因 为 已 经 进行 了 排 得 到 有 很 多 混 洗 和 进 归 迹 混 洗 的 一 个 
序 。 分裂- 隔离 操作 使 表 中 的 行 和 列 都 是 有 序 的 。 一 般 而 六 区 全 计生 
言 ， 这 个 性 质保 持 在 操作 中 : 每 一 步 使 行 数 加 倍 ， 列 数 
减 半 ， 并 且 还 保持 行列 有 序 ， 最 终 我 们 以 1 列 N 行 结束 ， 它 是 一 个 完全 有 序 的 序列 。 图 11-9 中 
图 形 和 图 11-8 下 图 的 网 络 之 间 的 联系 是 : 当 我 们 以 列 为 主 序 编写 这 个 表格 时 (第 一 列 中 的 元 
素 ， 后跟 第 二 列 中 的 元 素 ， 以 此 类 推 )， 我 们 看 到 了 它 从 一 步 到 下 一 步 所 需要 的 置换 正 是 完美 
混 洗 。 

图 11-10 显 示 了 一 个 内 帐 了 完美 混 洗 互 达 方式 的 抽象 并 行 机 。 我 们 能 够 直接 实现 像 图 11-8 
下 图 的 网 络 。 在 每 一 步 中 ， 机 器 如 算法 阐述 的 那样 ， 在 某 些 相 邻 的 处 理 器 对 之 间 执 行 比较 一 交 
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换 操 作 ， 然 后 执行 对 数据 的 完美 混 洗 。 在 机 器 上 编程 需要 确定 在 每 一 周期 中 ， 哪 些 处 理 器 对 
应 该 执行 比较 一 交换 操作 。 
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图 11-9 分 裂 -隔离 归 并 


注 : 从 一 行 中 的 两 个 有 序 文件 开始 ， 我 们 反复 使 用 以 下 操作 归并 它们 : 每 行 一 分 为 二 ， 隔 离 出 一 半 ( 左 图 ), 对 
来自 不 同行 现在 处 于 垂直 相 邻 的 数据 项 执行 比较 一 交 摘 〈 右 图 ) 。 开 始 有 16 列 和 1 行 ， 接 着 有 8 列 和 2 行 ， 然 
后 是 4 列 和 4 行 ， 再 就 是 2 列 和 8 行 ， 最 后 是 1 列 和 16 行 。 它 是 有 序 的 。 


BR 
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图 11-10 完美 混 洗 机 


注 : 这 里 画 出 的 互 连 结构 的 机 器 能 够 高 效 执行 Batcher 算 法 〈 以 及 许多 其 他 算法 ) 。 某 些 并 行 计 算 机 的 互 连 结构 
就 像 这 些 。 


图 11-11 显 示 了 自 底 向 上 方法 与 Batcher 奇 偶 归 并 的 全 混 洗 版 本 两 者 的 动态 特性 。 
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在 分 治 算法 中 , 混 洗 是 一 种 用 于 描述 数据 移动 的 重要 抽象 ， 它 引出 了 除 排序 问题 外 的 大 
量 问 题 。 例 如 ， 如 果 一 个 2 一 2 的 方 阵 按照 以 行为 主 序 的 方法 保存 ， 那 么 a 次 完美 混 洗 就 可 完 
成 矩阵 的 转 置 (把 矩阵 转换 成 以 列 为 主 序 的 顺序 存放 )。 更 多 重要 例子 有 快速 傅 里 叶 变 换 和 多 
项 式 求 值 〈 见 第 8 部 分 ) ， 我 们 可 以 使 用 像 图 11-10 中 显示 的 循环 完美 混 洗 机 解决 这 样 的 问题 ， 
但 是 需要 更 多 强大 的 处 理 器 。 我 们 甚至 可 能 构想 可 以 执行 混 洗 和 逆 混 洗 (一 些 实际 机 器 伐 入 
了 这 种 类 型 ) 的 通用 的 处 理 器 ， 我 们 在 11.5 节 的 并 行 机 上 再 讨论 这 个 问题 。 






































图 11-11 奇偶 归并 的 动态 特性 


注 : 奇偶 归并 ( 左 图 ) 的 自 底 向 上 的 版 本 涉及 一 系列 的 阶段 ， 在 这 些 阶段 中 ， 我 们 对 一 个 有 序 的 子 文件 的 较 大 
一 半 与 下 一 子 文件 的 较 小 一 半 热 行 比较 一 交换 操作 。 使 用 全 混 洗 后 ( 右 图 )， 算 法 具有 完全 不 同 的 特征 。 


练习 

11.16 ”使 用 尽 可 能 少 的 比较 器 ， 给 出 针对 4、5 和 6 个 元 素 的 排序 网 〈 见 练习 11.6) 。 
co11.17 ”编写 一 个 程序 ， 计 算 任 一 给 定 直 线程 序 所 需要 的 并 行 步 数 。 提 示 : 使 用 以 下 标记 策略 。 
把 输入 线 标记 为 第 0 步 ， 然 后 对 每 个 比较 器 执行 以 下 过 程 : 如 果 两 条 输入 线 中 的 一 条 编号 为 1， 
另 一 条 编号 不 大 于 i， 那 么 就 把 两 条 输出 线 标 记 为 第 计 1 步 的 输入 。 

11.18 ”对 于 随机 有 序 关键 字 NN = 10;，10*，105 和 10s， 比 较 程 序 11.4 与 程序 8.3 的 运行 时 间 。 
>11.19 ” 画 出 执行 10-11 归 并 的 Batcher 网 络 。 
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%。11.20 证 明 图 11-8 给 出 的 递归 逆 混 洗 和 递归 混 洗 之 间 的 关系 。 

011.21 根据 本 节 的 论述 ， 图 11-7 中 隐 含 着 对 21 个 元 素 排序 的 11 个 网 络 。 画 出 其 中 比较 器 数 最 
少 的 一 个 网 络 。 

11.22 对 于 2<N<32， 给 出 Batcher 奇 偶 排 序 网 中 比较 器 的 数目 ， 当 NN 不 是 2 的 短 时 ， 网 络 由 
最 接近 2 的 最 大 次 寡 的 网 络 的 前 N 条 线 构成 。 

211.23 对 于 N = 2"， 导 出 Batcher 奇 偶 排序 网 中 使 用 的 比较 器 数 的 精确 表达 式 。 注 意 ， 使 用 图 
11-7 检 查 你 的 答案 ， 对 于 N =2，4，8，16 和 32， 显 示 出 网 络 分 别 有 1，3，9，25 和 65 个 比较 器 。 
011.24 构造 一 个 排序 网 ， 使 用 自 顶 向 下 的 递归 风格 对 21 个 元 素 排 序 ， 这 个 大 小 为 N 的 网 络 是 
由 大 小 为 IN/2| 的 网 络 和 大 小 为 [N/2] 的 网 络 ， 并 后 跟 一 个 归并 网 组 成 。( 使 用 你 从 练习 11.19 
得 到 的 答案 作为 网 络 的 最 终 部 分 。) 

11.25 根据 练习 11.24 中 的 描述 所 构造 的 排序 网 ， 使 用 递归 关系 计算 该 排序 网 中 的 比较 器 数 ， 
其 中 2<N<32。 将 该 结果 与 练习 11.22 中 得 到 的 结果 进行 比较 。 

“11.26 使 用 比 Batcher 网 络 更 少 的 比较 器 ， 找 出 一 个 16- 线 的 排序 网 。 

11.27 使 用 练习 11.14 中 描述 的 模式 ， 画 出 对 应 图 11-8 的 bitonic 序 列 的 归并 网 络 。 

11.28 ”对 于 N=32， 画 出 对 应 于 上 共有 Pratt 增 量 的 希 尔 排 序 的 归并 网 络 。 

11.29 对 于 N = 16，32，64，128 和 256， 画 一 个 表 ， 包 含 练习 11.28 中 所 描述 的 网 络 的 比较 器 
数 以 及 Batcher 网 络 中 的 比较 器 数 。 

11.30 ”设计 一 个 排序 网 ， 对 于 3- 有 序 的 和 4- 有 序 的 N 个 元 素 的 文件 进行 排序 。 

“11.31 使 用 练习 11.30 中 的 网 络 ， 基 于 3 的 倍数 和 4 的 倍数 ， 设 计 一 个 类 似 Pratt 的 模式 。 对 于 
N=32， 画 出 你 的 网 络 ， 并 针对 你 的 网 络 回答 练习 11.29 中 的 问题 。 

“11.32 ”对 于 N=16， 画 出 Batcher 奇 偶 排 序 网 的 一 个 版 本 ， 该 网 络 在 连接 相 邻 线 的 独立 比较 器 
的 阶段 之 间 具 有 完美 混 洗 。( 该 网 络 的 最 后 4 个 阶段 应 该 来 自 图 11-8 中 底部 的 归并 网 。) 
o11.33 使 用 以 下 约定 ， 为 图 11-10 的 机 器 编写 一 个 归并 程序 。 指 令 是 包含 15 位 的 一 个 序列 ， 
其 中 第 i 位 (1<i<15) 如 果 是 1， 表 明 处 理 器 i 和 处 理 器 ;一 1 应 该 执行 比较 一 交换 操作 。 程 序 是 
指令 的 序列 ， 机 器 在 每 条 指令 之 间 执 行 一 次 完美 混 洗 。 

co11.34 使 用 练习 11.33 中 描述 的 约定 ， 为 图 11-10 的 机 器 编写 一 个 排序 程序 。 


11.3 外 部 排序 


下 面 ， 我 们 讨论 另 一 种 抽象 的 排序 问题 。 当 待 排序 的 文件 太 大 以 致 不 能 装 入 计算 机 的 主 
存 时 ， 就 会 用 到 这 个 问题 。 我 们 使 用 术语 外 部 排序 来 描述 这 种 情况 。 有 很 多 不 同类 型 的 外 部 
排序 设备 ， 它 们 可 能 对 实现 排序 所 用 的 原子 操作 施加 各 种 限制 。 但 是 ， 使 用 两 种 基本 原始 操 
作 的 排序 方法 仍然 是 有 用 的 : 把 数据 从 外 部 存储 器 读 入 内 存 中 ， 把 内 存 中 的 数据 写 入 外 部 存 
储 器 中 。 我 们 假设 这 两 个 操作 的 开销 要 比 基 本 计算 操作 的 开销 大 得 多 ， 因 而 ， 我 们 可 以 完全 
忽略 掉 后 者 。 例 如 ， 在 这 个 抽象 模型 中 ， 我 们 忽略 掉 内 存 排 序 的 开销 ! 对 于 巨大 的 内 存 和 低 
效 的 排序 方法 ， 这 种 假设 可 能 不 合理 ， 但 如 果 需 要 ， 可 以 作为 估计 实际 情况 下 的 真实 开销 的 
因素 。 

外 部 存储 设备 的 各 种 类 型 和 开销 使 得 开发 外 部 排序 方法 高 度 依赖 于 当前 的 技术 。 这 些 方 
法 可 能 很 复杂 ， 许 多 参数 影响 它们 的 性 能 。 由 于 技术 上 的 简单 改变 导致 一 种 良好 的 方法 不 被 
欣赏 和 使 用 ， 在 外 部 排序 研究 中 是 有 这 种 可 能 的 。 由 于 这 个 原因 ， 在 本 节 中 我 们 将 集中 回顾 
一 般 的 方法 ， 而 不 是 开发 特定 的 实现 。 

由 于 在 外 部 设备 上 的 读 一 写 开 销 巨 大 ， 常 常 对 访问 进行 严格 限制 ， 这 与 机 器 有 关 。 例 如 ， 
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对 于 大 多 数 类 型 的 设备 ， 主 存 和 外 部 设备 之 间 的 高 效 读 写 操作 一 般 是 以 连续 数据 块 为 单位 进 
行 的 。 同 时 ， 当 我 们 顺序 访问 数据 块 时 ， 大 容量 的 外 部 设备 在 设计 上 常常 能 够 达到 它 的 峰值 
性 能 。 例 如 ， 如 果 我 们 开始 不 扫描 磁带 ， 就 不 能 读 取 在 磁带 末尾 的 数据 项 。 基 于 实用 目的 ， 
我 们 访问 磁带 上 的 数据 项 是 受 最 近 访问 的 数据 项 的 附近 某 个 位 置 限制 的 。 几 种 现代 技术 具有 
这 种 性 质 。 因 此 ， 在 这 一 节 里 ， 我 们 专注 讨论 那些 顺序 读 写 大 块 数据 的 方法 ， 对 于 我 们 的 隐 
含 假设 ， 使 用 这 种 访问 数据 的 方式 可 以 在 感 兴趣 的 机 器 和 设备 上 达到 快速 访问 数据 的 目的 。 

当 我 们 处 于 读 写 不 同文 件 的 过 程 时 ， 假 设 它们 是 在 不 同 的 外 部 设备 上 。 很 早 以 前 的 机 器 ， 
文件 是 存储 在 分 置 的 外 部 磁带 上 ， 这 种 假设 是 必须 的 。 当 在 磁盘 上 工作 时 ， 可 能 只 用 一 个 外 
部 设备 就 可 实现 我 们 所 讨论 的 算法 ， 但 使 用 多 个 设备 会 更 高 效 。 

对 于 某 个 人 而 言 ， 最 高 效 地 实现 大 型 文件 的 排序 程序 的 第 一 步 是 实现 一 个 高 效 的 文件 复 
制程 序 。 第 二 步 可 能 是 实现 一 个 使 文件 逆序 的 程序 。 解 决 这 些 任务 所 遇 到 的 困难 肯定 是 在 实 
现 一 个 外 部 排序 时 必须 强调 的 。( 排 序 必须 解决 其 中 的 问题 。) 使 用 抽象 模型 的 目的 是 把 实现 
问题 从 算法 设计 问题 中 分 离 出 来 。 

我 们 将 讨论 的 排序 算法 组 织 为 对 数据 进行 许多 遍 处 理 的 过 程 ， 一 般 通 过 简单 地 计算 这 个 
遍 数 来 度量 一 个 外 部 排序 方法 的 开销 。 典 型 地 ， 我 们 需要 相对 少 的 遍 数 ， 也 许 是 十 遍 或 更 少 。 
这 一 事实 隐 含 着 ， 消 减 到 即使 是 一 遍 也 能 带 来 性 能 上 的 巨大 改进 。 我 们 的 基本 假设 是 外 部 排 
序 方法 的 运行 时 间 由 输入 和 输出 来 控制 ， 因 此 ， 可 以 用 读 写 整个 文件 所 需要 的 时 间 乘 以 所 使 
用 的 遍 数 来 估计 外 部 排序 的 运行 时 间 。 

总 之 ， 我 们 用 于 外 部 排序 的 抽象 模型 涉及 一 个 基本 假设 ， 就 是 待 排序 的 文件 太 大 ， 不 能 
一 次 装 入 计算 机 主 存 中 。 该 抽象 模型 还 涉及 两 个 其 他 资源 : 运行 时 间 〈 扫 过 数据 的 遍 数 ) 和 
可 用 的 外 部 设备 数 。 假 设 : 

“在 外 部 设备 上 有 待 排序 的 N 个 记录 。 

* 存放 M 个 记录 的 内 存 空间 。 

。 排 序 中 可 用 的 2P 个 外 部 设备 。 

我 们 把 包含 输入 的 外 部 设备 从 0 开始 标记 ， 其 他 设备 依次 标记 为 1，2，…，2P-1。 排 序 
的 目标 是 把 记录 按 顺 序 放 回 设备 0。 正 如 我 们 将 要 看 到 的 那样 ， 在 P 和 总 运行 时 间 之 间 存 在 一 
个 折 中 方案 ， 我 们 希望 量化 这 个 折 中 方案 ， 以 使 我 们 能 够 比较 各 种 策略 。 

有 很 多 种 原因 可 以 解释 为 什么 这 个 模型 不 现实 。 但 是 ， 就 像 任何 好 的 抽象 模型 一 样 ， 它 
抓 住 了 问题 的 本 质 ， 并 提供 了 一 个 精确 的 框架 。 在 这 个 框架 之 内 ， 我 们 能 够 探索 算法 思想 ， 
其 中 很 多 思想 直接 可 用 于 实际 中 。 

大 多 数 外 部 排序 方法 使 用 以 下 的 一 般 性 策略 。 首 先 对 待 排序 的 文件 进行 一 遍 扫 找 ， 把 它 
分 成 若干 个 等 于 内 存 大 小 的 数据 块 ， 接 着 ， 对 这 些 块 进行 排序 。 然 后 ， 如 果 需 要 ， 对 文件 进 
行 若干 遍 的 扫描 ， 逐 渐 创 建 较 大 的 文件 块 ， 直 到 整个 文件 有 序 。 把 有 序 块 归并 在 一 起 。 这 种 
方法 称 为 排序 一 归并 ， 自 从 20 世 纪 50 年 代 计 算 机 在 商业 上 得 到 广泛 应 用 以 来 ， 这 种 方法 一 直 
得 到 高 效 的 应 用 。 

最 简单 的 排序 一 归并 方法 称 为 平衡 多 路 归并 方法 ， 如 图 11-12 所 示 。 该 方法 由 初始 分 布 遍 
和 紧 跟 其 后 的 几 次 多 路 归并 遍 组 成 。 - 

在 初始 分 布 遍 中 ， 我 们 把 输入 分 布 到 外 部 设备 P，P+1，…，2P-1 上 ， 每 个 设备 都 是 M 个 
记录 的 有 序 块 (如果 NN 不 是 M 的 倍数 ， 可 能 最 后 一 块 要 小 一 些 ) 。 这 种 分 布 容易 做 到 。 我 们 首 
先 从 输入 读 取 前 W 个 记录 ， 对 它们 排序 ， 并 把 有 序 块 写 到 设备 P+1 中 ， 以 此 类 推 。 在 写 到 设备 
2P 一 1 时 ， 如 果 仍 有 很 多 的 输入 〔 即 如 果 N > PM)， 我 们 就 把 第 二 个 有 序 块 写 到 设备 P 中 ， 接 着 
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第 二 个 有 序 块 写 到 设备 P+1 中 ， 以 此 类 推 。 继 续 这 一 过 程 直 到 穷尽 输入 。 分 布 以 后 ， 每 个 设备 
上 的 有 序 块 数 为 N/IPM 的 向 上 或 向 下 取 整 的 数 。 如 果 N 是 M 的 倍数 ， 那 么 所 有 块 的 大 小 为 
《否则 ， 除 了 最 后 一 块 都 为 M)。 对 于 较 小 的 W， 可 能 有 不 到 P 个 块 ， 一 个 或 多 个 设备 可 能 为 空 。 


ASORTINGANDMNMERGINGEXAMPLEWITHFORTYFIVERECORDS 
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图 11-12 三 路 平衡 归并 示例 
注 : 在 初始 分 布 遍 中 ,我 们 从 输入 中 取 元 素 A SO 〇 并 对 它们 排序 ， 把 排 好 序 的 序列 A O S 放 在 第 一 个 输出 设备 上 。 
接 下 来 ， 我 们 从 输入 中 取 元 素 R TI， 对 它们 排序 ， 并 把 有 序 的 序列 1 R T 放 在 第 二 个 输出 设备 上 。 继 续 这 一 
过 程 ， 在 输出 设备 上 循环 执行 。 最 终 得 到 15 个 序列 ， 每 个 输出 设备 上 有 5 个 序列 。 在 第 一 阶段 的 归并 中 ， 我 
们 归并 A OS 、IRT 和 AGN， 得 到 AAGIORST， 把 它 放 到 第 一 个 输出 设备 上 ; 然后 ， 在 输入 设备 上 
归并 第 二 轮 的 序列 ， 得 到 DE G GIM NN R， 把 它 放 到 第 二 个 输出 设备 上 ， 以 此 类 推 ， 并 使 数据 平衡 的 分 
布 ， 或 者 分 市 在 三 个 设备 上 。 再 进行 两 遍 的 归并 过 程 ， 就 完成 了 排序 。 

在 第 一 遍 多 路 归并 中 ， 我 们 把 设备 P 到 设备 2P 一 1 看 作 输 入 设备 ， 设 备 0 到 设备 P 一 1 为 输出 
设备 。 我 们 进行 P- 路 归并 ， 把 在 输入 设备 上 的 大 小 为 MM 的 有 序 块 归并 为 大 小 为 PM 的 有 序 块 ， 
然后 ， 以 尽 可 能 平衡 的 方式 把 它们 分 布 到 输出 设备 上 。 首 先 ， 我们 把 来 自 每 个 输入 设备 上 的 
第 一 个 块 归并 在 一 起 ， 并 把 结果 放 到 设备 9 上 ， 然 后， 把 来 自 每 个 输入 设备 上 的 第 二 个 块 的 归 
并 结果 放 到 设备 1 上 ， 以 此 类 推 。 继 续 这 一 过 程 ， 直 到 穷尽 输入 。 分 布 之 后 ， 每 个 设备 上 的 有 
序 块 数 是 N/A(P?M) 的 向 上 或 向 下 取 整 的 数 。 如 果 N 是 PM 的 倍数 ， 那 么 所 有 块 的 大 小 为 PM ( 否 
则 ， 最 后 一 块 要 小 一 些 ) 。 如 果 N 不 大 于 PM， 则 只 剩 一 个 有 序 块 〈 在 设备 0 上 ) ， 我 们 就 完成 了 
排序 。 

否则 ， 我 们 重复 这 个 过 程 ， 执 行 第 二 遍 多 





路 归并 ， 把 设备 ，1，…，P-1 作 为 输入 设备 ， 15*1 

设备 P?，P+1，…，2P 一 1 作为 输出 设备 。 进 行 3 aa tn3 
P- 路 归并 把 在 输入 设备 上 的 大 小 为 PM 的 有 序 1*9 1*6 

块 归并 为 大 小 为 P2M 的 有 序 块 ， 然 后 ， 把 它们 1*15 

分 布 到 输出 设备 上 。 如 果 N 不 大 于 P2M， 第 二 图 11-13 平衡 三 路 归并 的 序列 分 布 


遍 之 后 就 完成 了 排序 (结果 在 设备 P 上 )。 ， ne 
继续 这 个 过 程 ， 在 设备 0 到 P_1 之 闻 、 设 备 注 。 在 对 大 小 为 内 存 15 倍 的 文件 进行 平衡 三 路 排序 一 归 
| 已 伍 ， 、 并 的 初始 分 布 中 ， 我 们 把 大 小 为 1 的 5 个 序列 放 到 
P 到 2P 一 1 之 间 来 回 重复 上 述 的 过 程 ， 通 过 P- 路 设备 3、4 和 5 上 ， 留 下 设备 0、1 和 2 为 空 。 在 第 一 
归并 使 数据 块 的 大 小 增加 P 倍 ， 直 到 最 终 在 设 阶段 的 归并 中 ， 我 们 把 大 小 为 3 的 两 个 序列 放 在 设 
备 0 上 或 设备 P 上 只 有 一 块 。 每 一 遍 中 的 最 后 归 备 0 和 1 上 ， 大 小 为 3 的 一 个 序列 放 在 设备 2 上 ， 留 
、 下 设备 3、4 和 5 为 室 ， 以 此 类 推 。 继 续 这 一 过 程 ， 
并 可 能 不 是 一 个 完全 的 P- 路 归并 ， 否 则 这 个 过 直到 只 有 一 个 序列 ， 在 设备 0 上 。 所 处 理 的 记录 总 

程 是 良性 平衡 的 。 图 11-13 只 使 用 数字 和 序列 的 。 数 为 60， 在 15 个 记录 上 执行 了 4 遍 。 
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相对 大 小 描述 了 这 个 过 程 。 在 表 中 我 们 用 所 作 的 乘法 次 数 ， 对 次 数 求 和 (不 包括 最 后 一 行 的 
元 素 ) 以 及 除 以 序列 数 来 度量 归并 的 开销 。 这 个 计算 给 出 的 开销 是 关于 在 数据 上 运行 的 遍 数 
的 函数 。 

要 实现 P- 路 归并 ， 可 以 使 用 大 小 为 P 的 优先 队列 。 我 们 希望 从 P 个 有 序 的 待 归 并 的 块 中 ， 
反复 输出 尚未 输出 的 每 个 块 中 最 小 元 素 ， 然 后 用 块 中 的 下 一 个 元 素 代替 这 个 输出 的 元 素 。 为 
了 完成 这 个 行为 ， 我 们 把 设备 下 标 保 存在 优先 队列 中 ， 从 指示 的 设备 上 ， 用 1ess 函 数 读 取 下 
一 个 要 被 读 取 的 记录 的 关键 字 的 值 ( 假 如 达到 块 尾 时 ， 有 一 个 大 于 所 有 记录 的 关键 字 的 观察 
哨 )。 归 并 是 一 个 简单 的 循环 ， 从 含有 最 小 关键 字 的 设备 中 读 取 下 一 个 记录 ， 并 把 那个 记录 写 
到 输出 中 ， 然 后 用 同一 设备 中 的 下 一 个 记录 替代 优先 队列 中 的 那个 记录 ， 继 续 这 一 过 程 ， 直 
到 观察 哨 的 关键 字 是 优先 队列 中 最 小 的 关键 字 。 我 们 可 以 使 用 堆 实现 来 达到 优先 队列 所 要 求 
的 与 log P 成 正比 的 时 间 ， 但 是 P 通 常 很 小 ， 以 至 于 这 部 分 的 开销 与 向 外 部 存储 器 写 人 的 时 间 
相 比 微不足道 。 在 抽象 模型 中 ， 我 们 忽略 了 优先 队列 的 开销 ， 并 假设 可 以 高 效 的 顺序 访问 外 
部 设备 上 的 数据 ， 因 而 ， 可 以 通过 统计 处 理 数 据 的 遍 数 来 到 度量 运行 时 间 。 实 际 上 ， 我 们 可 
以 使 用 基本 优先 队列 实现 ， 并 把 编程 重点 放 在 确保 外 部 设备 以 最 大 效率 运行 这 一 问题 上 。 

性 质 11.4 设 有 2P 个 外 部 设备 和 足够 存放 MM 个 记录 的 内 存 ， 那 么 基于 P- 路 平衡 归并 的 排 
序 一 归并 方法 需要 大 约 1+ [logp(N/M)] 遍 。 

分 布 需要 一 遍 。 如 果 N = MPt， 那 么 ， 第 一 遍 归 并 之 后 ， 块 的 大 小 都 为 MP， 第 二 遍 之 后 ， 
块 的 大 小 都 为 MP*?， 第 三 遍 之 后 ， 块 的 大 小 都 为 MP;， 以 此 类 推 ， 在 k = logp(N/M) 遍 后 ， 完 成 
排序 。 否 则 ， 如 果 M”' < N < M”， 在 过 程 即将 结束 时 ， 不 完全 块 和 空 块 使 得 块 的 大 小 不 同 ， 
但 我 们 仍然 会 在 £ = [1ogp(N/ MM)] 遍 内 完成 排序 。 国 

例如 ， 如 果 我 们 想 要 使 用 6 个 设备 和 足够 存放 1 百 万 条 记录 的 内 存 对 10 亿 个 记录 进行 排序 ， 
我 们 可 以 使 用 三 路 排序 -归并 处 理 8 遍 数据 ， 一 遍 用 于 分 布 ，?([log, 1000] =7) 遍 用 于 归并 。 
一 记分 布 之 后 ， 我 们 得 到 100 万 条 记录 的 有 序 序列 ， 第 一 次 归并 之 后 ， 得 到 300 万 条 记录 的 有 
序 序列 ， 第 二 次 归并 之 后 ， 得 到 900 万 条 记录 的 有 序 序列 ， 第 三 次 归并 之 后 ， 得 到 2700 万 条 记 
录 的 有 序 序 列 ， 以 此 类 推 。 我 们 可 以 估计 排序 所 需要 的 时 间 大 约 是 复制 文件 所 需 时 间 的 9 倍 。 

在 实际 排序 -归并 中 所 做 的 最 重要 的 决定 是 选择 P 的 值 ， 即 归并 的 阶 数 。 在 我 们 的 抽象 模 
型 中 ,要 求 顺序 访问 数据 ,这 隐 含 着 P 必 须 是 可 用 外 部 设备 数 的 一 半 。 对 于 许多 外 部 存储 设备 ， 
这 个 模型 是 现实 的 。 然 而 ， 对 于 许多 其 他 设备 ， 非 顺序 地 访问 数据 也 是 可 能 的 。 在 这 种 情况 
下 ， 我 们 仍然 可 以 使 用 多 路 归并 ， 但 必须 考虑 一 个 解决 增加 P 可 以 降低 遍 数 但 会 增加 ( 较 慢 ) 
非 顺序 访问 的 量 的 基本 折 中 方案 。 
练习 
=11.35 用 图 11-12 中 的 图 表 风 格 ， 显 示 如 何 使 用 三 路 平衡 归并 对 关键 字 
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排序 。 

>11.36 ”假设 使 可 用 的 外 部 设备 数量 加 倍 ， 那 么 将 对 多 路 归并 处 理 过 程 的 次 数 产 生 怎 样 的 影响 ? 
>11.37 假设 使 可 用 的 内 存 容量 增加 10 倍 ， 那 么 将 对 多 路 归并 处 理 过 程 的 次 数 产 生 怎 样 的 
影响 ? 

。11.38 ”为 外 部 输入 和 输出 开发 一 个 接口 ， 该 接口 涉及 的 顺序 传输 的 数据 块 来 自 非 同 步 操作 的 
外 部 设备 (或 者 可 从 你 的 系统 中 一 个 现存 设备 得 到 其 中 细节 )。 用 这 个 接口 实现 P 路 归并 ,要 
求 在 把 P 路 输入 文件 和 原 输入 文件 安排 到 不 同 的 输出 设备 的 同时 ， 使 得 P 值 尽 可 能 大 。 将 你 的 
程序 的 运行 时 间 和 逐个 把 文件 复制 到 输出 所 需 的 时 间 进行 对 比 。 
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“11.39 使 用 练习 11.38 所 得 接口 编写 一 个 程序 ， 使 得 对 于 你 的 系统 中 可 能 的 最 大 文件 ， 该 程 
序 将 这 个 文件 的 顺序 逆转 。 

"141.40 ”你 如 何 对 一 个 外 部 设备 上 的 所 有 记录 执行 一 遍 完 美 混 洗 ? 

“11.41 开发 一 个 多 路 归并 的 开销 模型 ， 该 模型 包含 下 述 算 法 ,该 算法 可 以 在 同一 设备 上 从 一 
个 文件 切换 到 另 一 个 文件 ， 所 需 开 销 是 固定 的 ， 且 远 远 高 于 一 次 顺序 读 取 的 开销 。 

“…11.42 对 根据 快速 排序 或 MSD 基 数 排序 方式 进行 的 划分 操作 ， 开 发 一 个 以 这 些 划分 操作 为 基 
础 的 外 部 排序 方法 ， 进 行 分 析 并 把 它 和 多 路 归并 作 比 较 。 你 可 以 像 我 们 在 这 一 节 对 “排序 - 归 
并 ”的 描述 中 所 做 的 那样 ， 使 用 一 个 高 级 抽象 ， 但 你 应 该 争取 基于 给 定 的 设备 数 和 内 存量 来 
预测 运行 时 间 。 

11.43 ”如 果 没 有 其 他 设备 可 用 (除了 内 存 )， 你 


如 何 对 外 部 设备 上 的 内 容 进行 排序 ? RrA ab 
11.44 ”如 果 只 有 一 台 额 外 设备 (以 及 内 存 ) 可 @ \D 
用 ,你 如 何 对 外 部 设备 上 的 内 容 进行 排序 ? RA 
11.4 排序 -~ 归 并 的 实现 © D 
11.3 节 概述 的 一 般 排序 一 归并 策略 在 实际 中 | Ga 
是 高 效 的 。 在 这 一 节 里 ， 我 们 考虑 两 个 降低 开 
销 的 改进 方法 。 第 一 种 技术 是 普 换 选择 ， 它 在 ge 
运行 时 间 上 与 增加 使 用 内 存量 的 效果 相同 。 第 . ® 癌 
二 种 技术 是 多 阶段 归并 ， 它 与 增加 使 用 设备 数 ® 
的 效果 相同 。 Ef 9 
在 11.3 节 中 ， 我 们 讨论 使 用 优先 队列 进行 P- 
路 归并 ， 但 注意 到 P 很 小 ， 快 速算 法 学 上 的 改进 Te 


@ 
名 


都 显得 不 重要 了 。 然 而 ， 在 初始 分 布 遍 中 ， 我 们 
可 以 使 用 快速 优先 队列 产生 比 内 存 中 所 能 容纳 的 
长 度 更 长 一 些 的 有 序 序列 。 思 想 是 通过 大 型 优先 
队列 扫描 (无 序 的 ) 输入 ， 总 是 向 优先 队列 中 写 
入 最 小 的 元 素 ， 总 是 用 来 自 输入 的 下 一 元 素 替换 
这 个 最 小 元 素 , 但 有 一 个 附加 条 件 ， 如果 新 的 元 
素 比 最 新 输出 的 元 素 更 小 ， 那 么 ， 由 于 它 不 可 能 
成 为 当前 有 序 块 的 一 部 分 ， 故 我 们 把 它 标 记 为 下 
一 块 的 成 员 ， 并 把 它 处 理 为 大 于 当前 块 中 的 所 有 ®) 
元 素 。 当 一 个 标记 元 素 使 新 的 元 素 成 为 优先 队列 


)} 
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pp) WM 
的 堆 顶 元 素 时 ， 我 们 就 开始 一 个 新 块 。 图 11-14 - 
描述 了 方法 的 过 程 。 Te 
性 质 11.5 “对 于 随机 关键 字 ， 蔡 换 选择 所 产 EW 
生 的 序列 大 约 是 所 用 堆 的 两 信 。 国生 区 过 二 


如 果 我 们 要 使 用 堆 排序 来 产生 初始 序列 ， 那 ， az narapa un 
» 四 oj 汪 : 这 1 在 in Wis p ， 

么 可 以 用 记录 充填 内 存 ， 然后 逐个 把 它们 写 出 ， 序列 ASORTINGEXAMPEE 来 产生 长 度 

继续 这 个 过 程 ， 直 到 堆 为 空 。 接 着 ， 我 们 用 另 一 分 别 为 8 和 7 的 两 个 序列 AIN ORSTX 和 AEE 


批 记录 充填 内 存 ， 并 再 三 重复 这 个 过 程 。 平 均 来 GL MP。 
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说 ， 在 这 个 过 程 中 ， 堆 只 占据 一 半 的 内 存 空 间 。 对 比 之 下 ， 替 换 选 择 也 可 使 内 存 填 充 同 样 的 
数据 结构 ， 因 而 它 能 表现 很 好 并 不 令 人 惊讶 。 这 一 性 质 的 完整 证 明 需 要 复杂 的 分 析 过 程 ( 见 
第 三 部 分 参考 文献 )， 虽 然 这 个 性 质 容易 进行 实验 验证 ( 见 练习 11.47)。 | 

对 于 随机 文件 ， 替 换 选 择 的 实际 效果 是 在 归并 遍 上 节省 : 不 是 从 内 存 大 小 的 有 序 序列 开 
始 ， 然 后 进行 一 遍 妇 并 来 产生 较 长 的 序列 ， 而 是 从 约 为 内 存 大 小 2 倍 的 序列 开始 。 对 于 P=2， 
这 个 策略 恰好 节省 一 遍 归 并 ， 而 对 于 较 大 的 P 值 ， 效 果 不 太 明显 。 然 而 ， 我 们 知道 实际 排序 很 
少 处 理 随 机 文件 ， 如 果 关 键 字 中 有 些 顺 序 ， 那 么 使 用 替换 选择 可 以 导致 大 型 序列 。 例 如 ， 如 
果 文 件 中 某 个 关键 字 之 前 ， 不 存在 比 它 大 的 M 个 关键 字 ， 那 么 通过 替换 选择 遍 ， 文 件 将 会 完 
全 有 序 ， 不 需要 归并 。 这 种 可 能 性 是 使 用 替换 选择 的 最 重要 的 实际 原因 。 

平衡 多 路 归并 的 主要 缺点 是 ， 在 归并 中 大 约 一 半 的 设备 处 于 活动 状态 : P 个 输入 设备 和 任 
何 一 个 收集 输出 的 设备 。 另 一 种 方案 是 始终 进行 (2P 一 1)- 路 归并 ， 所 有 输出 都 在 设备 0 上 ， 然 
后 在 每 一 遍 归 并 结束 时 ， 把 数据 分 布 回 其 他 磁带 上 。 但 是 这 种 方法 并 不 高 效 多 少 ， 因 为 为 了 
分 布 数据 ， 使 执行 遍 数 加 倍 。 平 衡 多 路 归并 似乎 是 要 求 过 量 的 磁带 单元 数 或 者 过 量 的 复制 。 
几 种 高 效 的 算法 已 经 产生 ， 它 们 通过 改变 归并 方式 ， 使 较 小 的 有 序 块 归 并 在 一 起 来 保持 所 有 
外 部 设备 繁忙 。 其 中 最 简单 的 方法 称 为 多 阶段 归并 。 

多 阶段 归并 的 基本 思想 是 把 替换 选择 方法 所 产生 的 有 序 块 稍微 不 均匀 地 分 布 到 可 用 磁带 
单元 中 〈 留 下 一 个 为 空 )， 然 后 应 用 归并 直到 为 空 的 策略 : 因为 归并 的 磁带 长 度 不 等 ， 一 个 会 
比 另 一 个 早 些 完成 ， 然 后 就 可 用 作 输 出 。 也 就 是 说 ， 我 们 切换 了 输出 磁带 的 作用 〈 现 在 有 些 
有 序 的 块 在 其 上 )， 以 及 现在 为 空 的 输入 磁带 的 作用 ， 继 续 这 一 过 程 ， 直 到 只 剩 一 个 块 。 图 
11-15 图 示 了 一 个 例子 。 
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图 11-15 多 阶段 归并 示例 
注 : 在 初始 分 布 阶段 中 ， 我 们 按照 预先 排列 模式 ， 把 不 同 大 小 的 序列 放 在 磁带 上 ， 而 不 是 保持 序列 个 数 的 平衡 ， 
如 图 11-12 所 示 。 接 着 ,我 们 在 每 一 阶段 执行 三 路 归并 ， 直 到 排序 完成 。 对 于 平衡 归并 要 执行 更 多 阶段 ， 但 
是 阶段 并 不 涉及 所 有 数据 。 
归并 直到 为 空 策略 对 于 任意 多 的 磁带 都 可 行 ， 如 图 11-16 所 示 。 归 并 被 分 解 为 许多 阶段 ， 
并 不 是 每 一 阶段 都 会 涉及 所 有 数据 ， 而 且 无 需 额外 的 复制 操作 。 图 11-16 显 示 了 如 何 计算 初始 
序列 分 布 。 我 们 通过 后 向 工作 ， 计 算出 每 个 设备 上 的 序列 数 。 
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图 11-16 多 阶段 三 路 归并 的 序列 分 布 


注 : 在 对 大 小 为 内 存 17 们 的 文件 进行 多 阶段 三 路 归并 的 初始 分 布 中 ， 我 们 把 7 个 序列 放 到 设备 0 上 ，4 个 序列 放 
到 设备 2 上 ，6 个 序列 放 到 设备 3 上 。 然 后 ， 在 第 一 阶段 中 ， 热 行 归并 直到 证 备 2 为 室 ， 在 设备 0 上 留 下 3 个 大 
小 为 1 的 序列 ， 在 设备 3 上 留 下 2 个 大 小 为 1 的 序列 ， 并 在 设备 1 上 创建 大 小 为 3 的 4 个 序列 。 对 大 小 为 内 存 15 
倍 的 文件 ， 开 始 时 我 们 在 设备 0 上 放 2 个 哑 元 序列 〈 见 图 11-15) ， 整 个 归并 所 处 理 的 块 的 总 数 为 59， 它 比 平 
衡 多 路 示例 所 处 理 的 块 数 要 少 ( 见 图 11-13)， 但 我 们 可 少 用 2 个 设备 〈 见 练习 11.50) 。 

对 于 图 11-16 描 述 的 例子 ， 我 们 推理 如 下 ， 我 们 想 在 设备 0 上 完成 归并 ， 得 到 一 个 序列 。 
于 是 ， 在 最 后 一 次 归并 之 前 ， 我 们 希望 设备 0 为 空 ， 在 设备 1、2 和 3 中 各 有 一 个 序列 。 接 下 来 ， 
我 们 需要 在 倒数 第 二 个 归并 之 前 ， 导 出 这 个 序列 分 布 。 设 备 1、2 和 3 中 有 一 个 为 空 (因此 它 可 
以 是 倒数 第 二 次 归并 的 输出 设备 ) ， 不 妨 取 设 备 3。 也 就 是 说 ， 倒 数 第 二 次 归并 把 设备 0、1 和 2 
上 的 序列 归并 到 一 起 ， 并 把 结果 放 到 设备 3 上 。 因 为 倒数 第 二 次 归并 完 后 ， 设 备 0 没 有 序列 ， 
设备 1 和 2 上 各 有 一 个 序列 ， 故 在 开始 时 必定 在 设备 0 上 有 一 -个 序列 、 设 备 1 和 2 上 有 了 两 个 序列 。 
类 似 的 推理 过 程 可 得 ， 在 前 一 个 归并 处 理 开 始 时 ， 在 设备 3、0 和 1 上 分 别 有 2、3 和 4 条 序列 。 
以 这 种 方式 继续 进行 下 去 ， 我 们 便 可 以 建立 一 个 序列 分 布 表 ， 取出 每 一 行 中 的 最 大 数字 ， 置 
零 ， 把 它 加 到 每 个 其 他 数字 中 ， 得 到 前 一 行 ， 这 个 约定 对 应 为 前 一 行 定义 了 能 够 给 出 当前 行 
的 最 高 阶 归并 ， 这 项 技术 适用 于 任意 数量 的 磁带 (至 少 三 个 磁带 )， 由 此 产生 的 数字 称 为 广义 
诡 波 纳 问 数 (generalized Fibonacci number) ， 它 具有 很 多 有 趣 的 性 质 。 如 果 序 列 数 不 是 广义 
斐 波 纳 契 数 ， 我 们 假设 存在 一 个 哑 元 序列 ， 使 初始 序列 数 恰好 为 表 中 要 求 的 数 。 实 现 多 阶段 
归并 的 主要 挑战 是 确定 如 何 分 布 初始 序列 〈 见 练习 11.54) 。 

给 定 初始 分 布 ， 我 们 可 以 通过 前 向 方式 计算 出 序列 的 相对 长 度 ， 记 录 归 并 所 产生 的 序列 
长 度 。 例 如 ， 图 11-16 中 示例 的 第 一 次 归并 在 设备 0 上 产生 相对 大 小 为 3 的 4 个 序列 ， 在 设备 2 上 
留 下 大 小 为 1 的 2 个 序列 ， 在 设备 3 上 留 下 大 小 为 1 的 1 个 序列 ， 以 此 类 推 。 如 同 在 平衡 多 路 归并 
中 所 做 的 那样 ， 我 们 可 以 执行 指明 的 乘法 运算 ， 对 结果 求 和 (不 包括 最 后 一 行 )， 及 除 以 初始 
序列 数 得 到 一 个 开销 估计 ， 它 相当 于 对 所 有 数据 执行 完整 一 遍 后 的 开销 倍数 。 为 简单 起 见 ， 
我 们 把 哑 元 序列 也 包含 在 开销 计算 中 ， 这 给 出 了 真实 开销 的 一 个 上 界 。 

性 质 11.6 设 有 3 个 外 部 设备 和 足够 存放 及 个 记录 的 内 存 ， 那 么 基于 后 接 两 路 多 阶段 归并 
的 亚 换 选择 的 排序 一 归并 ,平均 需要 大 约 1 + [08oCN/12M)|/9 高 效 遍 。 

Knuth 和 其 他 科研 人 员 在 20 世 纪 60 年 代 和 70 年 代 完成 了 关于 多 阶段 归并 的 全 面 分 析 ， 这 个 
分 析 复杂 而 广泛 ， 也 超出 了 本 书 的 范围 。 对 于 P=3 ， 该 算法 涉及 斐 波 纳 契 数 ， 因 此 出 现 了 加。 
更 大 的 P 将 应 产生 其 他 的 常数 。 因 子 1/9 说 明了 这 样 一 个 事实 : 每 个 阶段 仅 涉 及 数据 的 一 部 分 。 
我 们 用 读 入 的 数据 量 除 以 数据 总 量 来 计算 “高 效 遍 数 ”。 一 些 对 这 方面 全 面 研 究 的 结果 是 相当 
令 人 惊讶 的 。 例 如 ， 在 磁带 之 间 分 布 哑 元 的 最 优 方法 涉及 使 用 额外 的 阶段 和 更 多 的 哑 元 序列 ， 
而 且 其 数量 似乎 大 于 我 们 认为 需要 的 数量 ， 原 因 是 在 归并 中 某 些 序列 的 使 用 要 比 其 他 序列 更 
为 频繁 〈 见 第 三 部 分 参考 文献 ) 。 国 

例如 ， 如 果 我 们 希望 使 用 三 个 设备 和 足够 存放 1 百 万 个 记录 的 内 存 ， 对 10 亿 个 记录 进行 排 
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序 ， 我 们 使 用 一 个 2- 路 多 阶段 归并 ， 进 行 8([logs 500]/9 = 8) 遍 ， 即 可 完成 排序 。 加 上 分 布 遍 ， 
我 们 就 得 到 一 个 较 平 衡 归 并 稍微 高 一 些 的 开销 
(只 多 一 遍 )， 但 平衡 归并 使 用 的 设备 要 多 一 倍 。 
也 就 是 说 ， 我 们 可 以 把 多 阶段 归并 看 作 是 使 用 
一 半数 量 的 设备 完成 了 同样 的 工作 。 对 于 给 定 
数量 的 设备 ， 多 阶段 总 是 比 平衡 归并 高 效 ， 如 
图 11-17 所 示 。 
如 在 11.3 节 开始 讨论 的 那样 ， 我 们 集中 在 
抽象 机 模型 ， 顺 序 访问 外 部 设备 可 以 把 算法 学 


tba 人 实 列 图 11-17 平衡 和 多 阶段 归并 开销 比较 

， 人 上 测 j 设 ， 注 它 个 9 高 | 

, ~ , 注 :在 平衡 归并 中 用 4 个 磁带 (上 图 ) 使 用 的 遍 数 总 是 
性 。 例 如 ， 依 赖 输入 一 输出 功能 的 高 效 实现 ， 大 于 在 多 阶段 归并 中 用 3 个 磁带 (下 图 ) 所 使 用 的 


在 处 理 器 和 外 部 设备 以 及 其 他 系统 软件 之 间 传 高 效 遍 数 。 这 些 图 形 是 按照 性 质 114 和 性 质 11.6 的 
输 数 据 。 现代 计算 机 系统 一 般 都 有 这 些 软件 调 通 数 画 出 的 ，N/M 的 值 从 1 到 100。 由 于 哑 元 序列 ， 
试 的 实现 。 入 阶段 归并 的 真实 性 能 要 比 这 个 阶梯 画 数 所 表明 
我 们 把 这 个 观点 极端 化 ， 注 意 很 多 现代 计 。 “< 
算 机 系统 提供 了 强大 的 虚拟 内 存 的 能 力 ， 它 是 一 种 用 于 访问 外 部 设备 模型 的 更 广义 的 抽象 模 
型 。 在 虚拟 内 存 中 我 们 能 够 对 极 大 数量 的 记录 进行 寻 址 ， 负 责 确 保 寻 址 数据 在 必要 时 从 外 部 
设备 传输 到 内 存 中 的 任务 交 给 了 系统 ， 我 们 对 数据 的 访问 看 起 来 就 和 直接 访问 内 存 一 样 方便 。 
但 这 个 想象 并 不 是 完美 的 : 只 要 程序 访问 的 内 存 地 址 相对 接近 最 近 被 访问 的 地 址 ， 那 么 就 不 
太 需 要 进行 外 部 存储 器 到 内 存 的 传输 ， 这 样 的 虚拟 内 存 的 性 能 是 不 错 的 〈 例 如 顺序 访问 数据 
的 程序 就 属于 这 一 类 ) 。 然 而 ， 如 果 程 序 的 内 存 访 问 比 较 分 散 ， 那 么 虚拟 内 存 系统 的 性 能 可 能 
将 急速 下 降 (把 所 有 时 间 都 花费 在 访问 外 部 存储 器 上 ) ， 产 生 的 结果 也 是 灾难 性 的 。 
虚拟 内 存 可 作为 排序 大 型 文件 的 一 种 备 选 方案 ， 这 一 点 不 应 忽略 。 我 们 可 以 直接 实现 
“排序 一 归并 ”， 或 者 使 用 一 种 诸如 快速 排序 或 归并 排序 的 内 部 排序 方法 ， 这 样 更 为 简单 。 在 一 
个 优良 的 虚拟 内 存 环境 中 ， 这 些 内 部 排序 方法 是 值得 我 们 认真 考虑 的 。 而 访问 地 址 分 散 于 内 
存 各 处 的 方法 ， 例 如 堆 排序 或 基数 排序 ， 则 似乎 不 太 适 合 ， 因 为 系统 性 能 将 急速 下 请。 
另 一 方面 ， 使 用 虚拟 内 存 可 能 产生 过 多 的 系统 管理 开销 ， 这 样 我 们 必须 改 为 依靠 自己 进 
行 处 理 了 ， 明 确 的 方法 〈 例 如 我 们 已 经 讨论 过 的 那些 ) 也 许 是 最 好 的 方式 ， 可 以 最 大 限度 地 
利用 高 性 能 外 部 设备 。 刻 画 我 们 一 直 讨 论 的 这 些 方 法 的 一 种 方式 是 ; 设计 成 为 尽 可 能 独立 于 
计算 机 系统 并 以 最 大 效率 运转 ， 任 何 部 件 不 空 亲 。 当 我 们 把 独立 部 件 看 作 处 理 器 本 身 时 ， 就 
进入 了 11.5 节 的 主题 一 一 并 行 计 算 。 
练习 . 
>11.45 给 出 用 大 小 为 4 的 优先 队列 对 下 列 关 键 字 执 行 替换 选择 所 产生 的 序列 “ 
EASYQUESTION 
511.46 对 给 定 文件 使 用 替换 选择 ， 然 后 对 所 产生 的 文件 再 次 使 用 替换 选择 ， 将 产生 什么 
结果 ? 
。11.47 ”使 用 大 小 为 1000 的 优先 队列 ， 对 于 随机 文件 N = 10"，10*，10: 和 105， 实 验 确定 替换 选 
择 所 产生 的 平均 序列 数 。 
11.48 ”使 用 大 小 为 M 的 优先 队列 ， 当 你 用 替换 选择 来 产生 N 个 记录 的 一 个 文件 的 初始 序列 时 ， 
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且 M < N， 最 坏 情 况 下 的 初始 序列 数 是 多 少 ? 

>11.49 用 图 11-15 中 的 图 表 风 格 ， 显 示 如 何 使 用 多 阶段 归并 对 关键 字 
EASYQUESTIONWITHPLENTYOFKEYS 

排序 。 

9011.50 在 图 11-15 中 的 多 阶段 归并 示例 中 ， 我 们 把 2 个 哑 元 序列 放 到 有 7 个 序列 的 磁带 上 。 考 
虑 在 磁带 上 分 布 哑 元 序列 的 另 一 种 方法 ， 并 找 出 归并 开销 最 小 的 一 个 。 

11.51 画 出 对 应 图 11-13 的 一 个 表 ， 决 定 平衡 3- 路 归并 能 够 归并 的 最 大 序列 数 ， 要 求 对 所 有 数 
据 进 行 5 遍 处 理 ， 使 用 6 个 设备 。 
11.52 画 出 对 应 图 11-16 的 一 个 表 ， 决 定 多 阶段 归并 能 够 归并 的 最 大 序列 数 ， 要 求 对 所 有 数 
据 进 行 5 遍 处 理 ， 使 用 6 个 设备 。 

011.53 给 定 设备 数 和 初始 块 数 ， 编 写 一 个 程序 ， 计 算出 多 路 归并 所 使 用 的 遍 数 和 多 阶段 归并 
所 使 用 的 高 获 遍 数 。 使 用 你 的 程序 打印 出 关于 每 种 方法 开销 的 一 个 表格 ， 其 中 N = 10?，104， 
105 和 104，P=3，4，5，10 和 100。 

“…11.54 ”编写 一 个 程序 ， 把 初始 序列 顺序 地 分 配 到 进行 P- 路 多 阶段 归并 的 设备 上 。 当 序列 数 是 
广义 的 Fibonacci 数 时 ， 序 列 应 该 分 配 到 算法 所 要 求 的 设备 。 你 的 任务 是 找 出 每 次 分 配 一 个 序 
列 的 最 便捷 的 序列 分 布 方法 。 | 

“11.55 ”使 用 练习 11.38 所 定义 的 接口 ， 实 现 替换 选择 。 

“…11.56 结合 你 对 练习 11.38 和 练习 11.55 的 解决 方案 ， 完 成 一 个 排序 一 归并 实现 。 使 用 多 阶段 
归并 以 及 你 的 程序 ， 在 你 的 计算 机 上 对 尽 可 能 大 的 文件 进行 排序 。 如 果 可 能 ， 确 定 设备 数 增 
加 对 运行 时 间 的 影响 。 

11.57 在 快速 排序 实现 中 处 理 的 小 文件 如 何 运行 在 虚拟 内 存 环境 中 的 大 文件 上 ? 

“11.58 ”如 果 你 的 计算 机 有 一 个 合适 的 虚拟 内 存 系统 , 实验 性 地 比较 对 大 型 文件 执行 快速 排序 、 
LSD 基 数 排序 、MSD 基 数 排序 和 堆 排 序 的 结果 。 使 用 尽 可 能 大 的 可 行文 件 。 

*11.59 ”基于 k- 路 归并 ， 开 发 递归 多 路 归并 排序 的 一 种 实现 。 这 个 实现 应 该 适合 在 虚拟 内 存 环 
境 ( 见 练习 8.11) 中 对 大 型 文件 进行 排序 。 

*11.60 ”如 果 你 的 计算 机 有 一 个 合适 的 虚拟 内 存 系统 ， 对 于 练习 11.59 的 实现 ， 实 验 性 地 确定 
产生 最 低 运行 时 间 的 k 值 。 使 用 尽 可 能 大 的 可 行文 件 。 


11.5 并 行 排序 /归并 


如 何 使 几 个 独立 的 处 理 器 在 一 起 工作 解决 同一 个 问题 ? 处 理 器 是 控制 外 部 存储 设备 还 是 
一 个 完整 的 计算 机 系统 ， 这 个 问题 是 高 性 能 计算 机 系统 的 算法 设计 的 核心 。 并 行 计算 的 主题 
近年 来 得 到 了 广泛 的 研究 。 许 多 不 同类 型 的 并 行 计算 机 系统 设计 出 来 ， 并 行 计算 的 许多 不 同 
模型 也 已 提出 。 排 序 问题 是 计算 机 系统 和 计算 模型 高 效 性 的 测试 用 例 。 
”在 11.2 节 的 关于 排序 网 的 讨论 中 ， 我 们 已 经 讨论 了 低层 并 行 性 ， 考 虑 同时 进行 许多 比较 一 
交换 操作 。 现 在 ， 我 们 讨论 高 级 的 并 行 模型 ， 这 种 模型 中 有 许多 独立 的 访问 同一 数据 的 通用 
处 理 器 〈 而 不 仅仅 是 比较 器 ) 。 我 们 将 再 次 忽略 很 多 实际 问题 ， 但 可 以 在 这 个 环境 中 分 析 算 法 
学 问题 。 

我 们 用 于 并 行 处 理 的 抽象 模型 包括 一 个 基本 假设 ， 就 是 待 排序 的 文件 分 布 在 P 个 独立 的 处 
理 器 中 。 假 设 有 

* NN 个 记录 要 排序 。 

*P 个 处 理 器 ， 每 个 都 能 存放 N/P 个 记录 。 
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我 们 为 处 理 器 分 配 标号 0，1，…，P-1， 并 假设 输入 文件 在 处 理 器 的 局 部 内 存 中 〈 即 ， 
每 个 处 理 器 有 WP 个 记录 ) 。 排 序 的 目标 是 重 排 记 录 ， 按 照 有 序 的 顺序 ， 把 前 WP 个 最 小 的 记录 
放 在 处 理 器 0 的 内 存 中 ， 把 接 下 来 NP 个 最 小 的 记录 放 在 处 理 器 1 的 内 存 中 ， 以 此 类 推 。 正 如 将 
看 到 的 那样 ， 在 P 与 总 运行 时 间 之 间 有 一 个 折 中 方案 ， 我 们 对 量化 这 个 折 中 方案 感 兴趣 ， 这 使 
我 们 可 以 对 策略 进行 比较 。 

这 种 模型 是 许多 种 并 行 模型 中 的 一 种 ， 在 实际 应 用 中 ， 它 也 有 和 外 部 排序 模型 (11.3 节 ) 
一 样 的 缺点 。 实 际 上 ， 它 并 不 论述 并 行 计算 面临 的 一 个 最 重要 的 问题 : 处 理 器 之 间 的 通信 约束 。 

我 们 假设 这 样 的 通信 要 比 访问 局 部 存储 器 的 开销 大 得 多 ， 以 至 于 最 高 效 的 处 理 器 形式 是 
以 大 块 的 数据 进行 顺序 处 理 。 从 某 种 意义 上 讲 ， 处 理 器 把 其 他 处 理 器 的 存储 器 作为 外 部 存储 
设备 。 从 实际 观点 来 看 ， 这 种 高 级 抽象 模型 是 不 令 人 满意 的 ， 因 为 它 做 了 过 分 简化 。 从 理论 
观点 来 看 ， 它 也 不 是 令 人 满意 的 ， 因 为 它 没有 完全 明确 。 但 它 依然 提供 了 一 个 框架 ,在 此 框 
架 内 ， 我 们 可 以 开发 有 用 的 算法 。 

实际 上 ， 这 个 问题 (以 及 这 些 假设 ) 提供 了 使 抽象 能 力 令 人 信服 的 一 个 例子 ， 因 为 我 们 
可 以 使 用 11.2 布 讨论 的 相同 的 排序 网 ， 把 其 中 的 比较 一 交换 抽象 改 为 在 大 的 数据 块 上 的 操作 。 

定义 11.2 ”归并 比较 器 以 两 个 大 小 为 M 的 有 序 文 件 作为 输入 ， 并 输出 两 个 有 序 的 文件 : 一 
个 文件 包含 2M 个 输入 中 的 M 个 最 小 元 素 ， 另 一 个 文件 包含 2M 输 入 中 的 M 个 最 大 元 素 。 

这 样 的 操作 是 易于 实现 的 ， 归 并 两 个 输入 文件 ， 并 输出 归并 后 结果 的 前 半 部 分 和 后 半 部 分 。 

性 质 11.7 将 大 小 为 N 的 文件 分 成 N/M 个 大 小 为 必 的 块 ， 接 着 对 每 个 块 进行 排序 ， 然 后 用 
归并 比较 器 构建 的 排序 网 实现 对 文件 的 排序 。 

由 0-1 原 理 可 得 这 个 事实 〈 见 练习 11.61) ， 但 是 跟踪 一 个 像 图 11-18 中 的 例子 ， 是 很 有 说 服 





力 的 一 个 练习 。 国 
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图 11-18 块 排 序 实例 
注 : 该 图 显示 了 如 何 使 用 图 11-4 的 网 络 对 数据 块 排 序 。 比 较 器 把 两 个 输入 文件 中 的 较 小 的 一 半 输 出 到 顶部 线 上 ， 
把 较 大 的 一 半 输 出 到 底部 线 上 。3 个 并 行 步 足以 完成 排序 。 

我 们 称 性 质 11.7 中 描述 的 方法 为 块 排序 。 在 特定 并 行 机 上 使 用 该 方法 之 前 ， 我 们 有 很 多 设 
计 参 数 需要 考虑 。 我 们 的 兴趣 是 关注 方法 的 以 下 性 能 特征 : 

性 质 11.8 使 用 带 有 归并 上 比较 器 的 Batcher 排 序 ， 在 P 个 处 理 器 上 进行 块 排序 ， 可 以 在 大 约 
(lg P)Y/2 个 并 行 步 内 对 N 个 记录 排序 。 

在 这 个 环境 中 的 并 行 步 ， 是 指 一 组 不 相交 的 归并 比较 器 。 性 质 11.8 是 性 质 11.3 和 性 质 11.7 
的 直接 结果 。 国 

为 了 在 两 个 处 理 器 上 实现 归并 比较 器 ， 我 们 可 以 使 它们 交换 数据 块 的 复制 ， 两 个 处 理 器 
都 进行 (并行) 归并 ， 一 个 处 理 器 保存 关键 字 的 较 小 一 半 ， 另 一 个 处 理 器 保存 关键 字 的 较 大 
一 半 。 如 果 块 传输 速度 与 单个 处 理 器 的 速度 相 比 较 慢 ， 那 么 我 们 可 以 把 每 次 传输 数据 块 的 开 
销 乘 以 (lg P)/Y2， 来 估计 排序 所 需 的 总 的 运行 时 间 。 例 如 ， 假 设 多 个 块 可 以 同时 传输 ， 且 没有 
延迟 ， 这 是 在 真正 的 并 行 计算 中 很 少 能 够 达到 的 目标 ， 但 对 于 我 们 理解 实际 的 实现 ， 仍 然 提 
供 了 一 个 很 好 的 出 发 点 。 

如 果 块 传输 的 开销 与 单个 处 理 器 的 速度 可 比 〈 这 是 实际 机 器 只 能 近似 达到 的 另 一 个 理想 
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目标 ) ， 那 么 我 们 必须 解释 初始 排序 的 时 间 。 初 始 时 每 一 个 处 理 器 进行 大 约 (WP) lg(N/P) 次 比 
较 (并 行 )， 对 WP 个 块 排序 ， 对 (WP)--(VWP) 归 并 大 约 需 要 Pz(lg P)/2 个 阶段 。 如 果 比 较 的 开销 
是 w， 每 归并 一 个 记录 的 开销 是 BE， 那 么 总 运行 时 间 大 约 是 

ac(VWP) lg (WP) + BCOVWP)P2(lg P)/2 

对 于 大 的 NW 和 小 的 P， 这 个 性 能 是 我 们 希望 的 任何 基于 比较 的 并 行 排序 方法 中 的 最 好 的 性 
能 ， 因 为 这 种 情况 下 的 开销 大 约 是 a(N lg N)/P， 这 是 最 优 的 。 任 何 排序 都 需要 N lg N 次 比较 ， 
我 们 所 能 做 的 最 佳 的 情况 是 一 次 处 理 P 个 。 对 于 较 大 的 已 ， 公 式 的 第 二 项 起 着 决定 作用 ， 开 销 
大 约 是 BN(P lg P)/2， 这 是 次 优 的， 但 仍然 有 相当 的 竞争 力 。 例 如 在 64 个 处 理 器 上 对 10 亿 个 元 
素 排序 ， 第 二 项 的 开销 大 约 为 256BN/P， 相 比 之 下 ， 第 一 项 占 了 32aN/P。 

当 P 较 大 时 ， 所 有 处 理 器 之 间 的 通信 可 能 在 某 台 机 器 上 产生 一 个 瓶颈 。 如 果 这 样 ， 图 11-8 
的 完美 混 洗 可 能 提供 一 种 控制 这 些 开 销 的 方法 。 某 些 并 行 机 有 内 置 的 低层 互 连 机 制 ， 人 允许 我 
们 高 效 地 实现 混 洗 ， 也 正 是 由 于 这 个 原因 。 

这 个 例子 显示 了 在 某 种 条 件 下 ， 我 们 可 以 使 用 大 量 的 处 理 器 高 效 地 解决 大 型 排序 问题 。 
为 了 找 出 这 种 实现 的 最 佳 方式 ， 我 们 必需 考虑 这 种 并 行 机 的 许多 其 他 算法 ， 了 解 一 个 真正 的 
并 行 机 的 许多 其 他 特征 ， 考 虑 所 使 用 的 这 个 机 器 模型 上 的 各 种 变型 。 此 外 ， 我 们 可 能 需要 使 
用 完全 不 同 的 并 行 方法 。 但 增加 处 理 器 数 就 会 增加 通信 开销 的 思想 是 并 行 计 算 的 基础 ， 
Batcher 网 络 提供 了 控制 这 些 开销 的 一 种 高 效 方法 ，11.2 节 和 本 节 分 别 从 低级 功能 和 高 级 功能 
两 方面 分 析 了 这 个 方法 。 

本 节 以 及 本 章 其 他 地 方 所 描述 的 排序 方法 完全 不 同 于 我 们 在 第 6 章 至 第 10 章 讨论 的 方法 ， 
因为 它们 涉及 我 们 通常 在 编程 中 没有 考虑 到 的 制约 。 在 第 6 章 至 第 10 章 ， 对 数据 性 质 所 做 的 简 
单 假设 ， 足 以 使 我 们 比较 同一 基本 问题 的 大 量 不 同 的 方法 。 对 比 之 下 ， 在 这 一 章 里 ， 我 们 把 
焦点 放 在 曾 明 各 种 问题 ， 并 为 每 个 问题 讨论 一 些 解决 的 方法 。 这 些 例 子 说 明了 现实 世界 中 制 
约 的 变化 可 以 提供 算法 学 上 新 的 解决 方法 ， 过 程 的 主要 部 分 是 为 问题 开发 有 用 的 抽象 模式 。 

排序 在 很 多 实际 应 用 中 是 必要 的 ， 设 计 高 效 的 排序 方法 常常 是 新 型 计算 机 结构 和 新 的 编 
程 环境 面临 的 首要 问题 。 对 于 新 的 发 展 ， 新 的 开发 是 建立 在 以 往 经 验 的 基础 上 ， 对 我 们 这 里 
讨论 的 以 及 在 第 6 章 至 第 10 章 讨论 的 一 系列 技术 的 了 解 也 很 重要 ， 对 于 发 展 迅 猛 的 新 技术 ， 如 
果 要 在 新 机 器 上 开发 快速 排序 过 程 ， 这 里 讨论 的 抽象 思维 也 是 必需 的 。 
练习 
ol11.61 使 用 0-1 原 理 (性 质 11.1)， 证 明和 性质 11.7。 

。11.62 ”实现 带 有 Batcher 奇 偶 归 并 的 块 排序 的 顺序 版 本 ， (i) 使 用 标准 归并 排序 (程序 8.3 和 程 
序 8.2) 对 块 进行 排序 ，(ii) 使 用 标准 抽象 原 位 归并 (程序 8.2) 来 实现 归并 比较 器 ， 且 (iii) 使 
用 自 底 向 上 Batcher 奇 偶 归 并 (程序 11.3) 来 实现 块 排序 。 

11.63 ”对 于 较 大 的 N 值 ， 估 计 练 习 11.62 中 描述 的 程序 的 运行 时 间 ， 表 示 为 N 和 M 的 函数 。 
“11.64 ”做 练习 11.62 和 练习 11.63， 但 在 两 个 实例 中 用 自 底 向 上 的 Batcher 奇 偶 归 并 代替 程序 8.2。 
11.65 ”对 于 N= 10;，105，109 和 10， 给 出 使 (N/P) lgN= NP 1g P 的 P 值 。 

11.66 ”对 于 P = 1，4，16，64 和 256， 给 出 并 行 Batcher 块 排序 中 使 用 的 数据 项 之 间 的 比较 次 
数 且 形 如 ciNlg N + cs N 的 近似 表达 式 。 

11.67 ”使 用 100 个 处 理 器 ， 对 分 布 在 1000 个 磁盘 上 的 105 个 记录 进行 排序 ， 需 要 多 少 并 行 步 ? 


第 三 部 分 参考 文献 


本 部 分 的 主要 参考 书 是 Knuth 系 列 的 第 三 卷 ， 排 序 和 搜索 。 事 实 上 ， 我 们 讨论 过 的 每 一 个 
问题 的 详尽 资料 都 可 以 在 这 本 书 中 找到 。 特 别 是 ， 本 书 所 讨论 的 各 种 算法 的 性 能 特征 的 结果 ， 
这 本 书 中 都 有 完整 的 数学 分 析 做 支撑 。 

关于 排序 方面 的 著作 非常 多 。Knuth 和 Rivest 在 1973 年 列 出 的 参考 书目 中 包括 了 几 百 篇 论 
文 ， 这 些 都 描述 了 我 们 所 分 析 的 很 多 经 典 方法 的 发 展 情况 。Baeza-Yates 和 Gonnet 的 著作 则 包 
含 了 更 新 后 的 参考 书目 ， 其 中 洱 盖 了 最 近 的 研究 结果 ， 在 Sedgewick 的 1996 年 的 论文 中 综述 了 
希 尔 排序 的 进展 。 

对 于 快速 排序 ， 最 好 的 参考 书 是 Hoare 在 1962 年 的 原始 论文 ， 其 中 提出 了 所 有 重要 的 改进 
方法 ， 包 括 对 第 7 章 中 讨论 的 选择 的 使 用 。 在 Sedgewick 的 1978 年 的 论文 中 ， 可 以 看 到 关于 数 
学 分 析 的 更 多 细节 ， 以 及 在 该 算法 被 广泛 应 用 以 后 提出 的 许多 修正 改进 的 效果 。Bentley 和 
Mecllroy 则 给 出 了 这 个 主题 在 当前 的 进展 ， 第 7 章 中 的 3- 路 划分 和 第 10 章 的 3- 路 基数 快速 排序 则 
是 基于 Bentley 和 Sedgewick 在 1997 年 写 的 论文 。 最 早 的 划分 算法 (二 分 快速 排序 或 基数 交换 排 
序 ) 出 现在 Hildebrandt 种 Isbitz 在 1959 年 所 写 的 论文 当中 。 

由 Brown 实 现 和 分 析 的 Vuillemin 的 二 项 队列 数据 结构 ， 完 美 且 高 效 地 支持 了 优先 队列 的 
所 有 操作 。 由 Fredman、Sedgewick、Sleator 和 Tarjan 描 述 的 成 对 堆 则 是 一 个 特别 有 趣 的 改进 。 

Mcllroy、Bostic 和 Mcllroy 在 1993 年 所 写 的 论文 体现 了 基数 排序 在 实现 方面 的 艺术 水 平 。 
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第 12 章 符号 表 和 二 又 搜索 树 


从 大 量 以 前 存储 的 数据 中 检索 特定 的 一 段 信息 或 几 段 信息 是 一 项 基本 的 操作 ， 这 项 操作 
称 为 搜索 (search， 有 了 时 也 称 “ 查 找 ”)， 它 是 大 量 计算 任务 的 固有 性 操作 。 在 第 6 章 至 第 11 章 
的 排序 算法 以 及 第 9 章 的 特定 优先 队列 中 ， 我 们 把 处 理 的 数据 划分 成 记录 或 数据 项 (item ) ， 
每 个 数据 项 都 有 一 个 用 于 搜索 的 关键 字 (key)。 搜 索 的 目标 是 找 出 关键 字 与 一 个 给 定 的 搜索 
关键 字 相 匹配 的 数据 项 。 搜 索 的 目的 是 要 访问 那个 数据 项 (不仅 是 关键 字 ) 内 的 信息 ， 以 备 
处 理 。 

搜索 的 应 用 范围 广泛 ， 涉 及 大 量 不 同 的 操作 。 例 如 ， 一 个 例子 是 银行 系统 ， 它 需要 记录 
其 所 有 客户 的 帐户 信息 ， 并 搜索 这 些 记录 以 检查 帐户 结余 和 进行 交易 。 另 一 个 例子 是 航空 系 
统 ， 它 需要 记录 所 有 航班 的 预定 信息 ， 搜 索 空闲 座位 的 信息 ， 取 消 或 修改 预定 的 信息 。 第 三 
个 例子 是 网 络 软件 界面 的 搜索 引擎 ， 它 在 网 络 中 查找 包含 给 定 关键 字 的 所 有 文档 。 这 些 应 用 
的 需求 在 某 种 方式 上 是 类 似 的 银行 系统 和 航班 系统 都 需要 精确 和 可 靠 ) ， 而 系统 之 间 又 相互 
不 同 ( 比 起 其 他 系统 的 数据 ， 银 行 的 数据 文件 较 大 )， 所 有 系统 都 需要 好 的 搜索 算法 。 

定义 12.1 符号 表 是 一 种 数据 结构 ， 其 中 数据 项 含有 关键 字 。 它 支持 两 个 基本 的 操作 : 插 
入 新 的 数据 项 ， 返 回 给 定 关键 字 的 数据 项 。 

符号 表 有 时 也 称 为 字典 ， 因 为 它 类 似 于 一 个 时 间 悠 久 的 系统 ， 通 过 在 一 本 参考 书 中 按照 
字母 顺序 列 出 单词 来 提供 单词 的 定义 。 在 一 本 英语 字典 中 ,“keys” 是 单词 , “item” 就 是 包含 
定义 、 发 音 和 其 他 信息 的 单词 的 相关 词 条 。 人 们 使 用 搜索 算法 来 找 出 一 个 字典 中 的 信息 ， 通 
常 依赖 于 这 样 一 个 事实 : 词 条 按照 字母 顺序 出 现 。 电 话 号 码 本 、 大 百科 全 书 以 及 其 他 参考 书 
籍 都 是 按照 同样 的 方法 进行 组 织 的 。 我 们 将 要 讨论 的 搜索 方法 ， 其 中 一 些 也 是 依赖 于 这 样 一 
种 思想 。 

基于 计算 机 符号 表 的 优点 是 ， 它 们 可 以 有 比 字典 或 电话 号 码 本 更 多 的 动态 性 。 因 而 我 们 
讨论 的 大 部 分 方法 所 构造 的 数据 结构 ， 不 仅 能 够 高 效 地 运行 搜索 算法 ， 而 且 能 够 支持 对 新 数 
据 项 的 插入 、 删 除 或 修改 数据 项 、 把 两 个 符号 表 组 合成 一 个 等 操作 的 高 效 实现 。 在 这 一 章 里 ， 
我 们 将 回顾 第 9 章 关 于 优先 队列 操作 的 很 多 问题 。 对 于 支持 搜索 的 动态 数据 结构 的 研究 是 计算 
机 科学 中 最 古老 和 最 广泛 的 研究 问题 ， 它 将 是 这 一 章 以 及 第 13 章 至 第 16 章 主要 研究 的 重点 。 
正如 我 们 将 要 看 到 的 那样 ， 很 多 创造 性 的 算法 已 经 发 明 出 来 ， 解 决 了 符号 表 的 实现 问题 。 

除了 刚才 提 到 的 基本 应 用 类 型 外 ， 符 号 表 还 一 直 是 计算 机 科学 家 和 程序 员 研究 的 对 象 ， 
因为 符号 表 在 计算 机 系统 中 组 织 软件 方面 发 挥 着 不 可 缺少 的 辅助 作用 。 符 号 表 就 是 程序 的 字 
典 ， 关 键 字 是 程序 中 所 使 用 的 符号 名 ， 数 据 项 包含 了 描述 命名 对 象 的 信息 。 从 科学 计算 的 早 
期 ， 符 号 表 人 允许 程序 员 把 机 器 代码 中 的 数值 地 址 转换 成 用 汇编 语言 表示 的 符号 名 称 ， 到 新 千 
年 的 现代 应 用 ， 符 号 名 的 意义 穿越 了 世界 范围 的 计算 机 网 络 ， 快 速 的 搜索 算法 在 计算 中 已 经 
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并 将 继续 发 挥 重要 的 作用 。 

符号 表 在 底层 抽象 中 经 常会 遇 到 。 有 时 也 会 在 硬件 层 遇 到 。 有 时 使 用 术语 联想 存储 器 
(associate memory) 来 描述 这 个 概念 。 我 们 将 集中 分 析 软 件 实现 ， 但 有 些 方法 也 适合 于 硬件 
实现 。 

和 第 6 章 中 研究 的 排序 方法 一 样 ， 我 们 从 一 些 基 本 的 方法 开始 本 章 搜索 方法 的 研究 ， 这 些 
基本 方法 对 小 型 表 和 其 他 特殊 情况 很 有 用 ， 并 阐述 了 更 高 级 的 方法 中 使 用 的 基本 技术 。 然 后 ， 
在 本 章 的 其 余部 分 ， 我 们 将 重点 放 在 二 又 搜索 树 (BST, binary search tree) ， 它 是 快速 查找 算 
法 中 一 般 而 广泛 使 用 的 数据 结构 。 

在 2.6 节 我 们 考虑 了 两 种 查找 算法 ， 用 于 说 明 数 学 分 析 在 帮助 我 们 开发 高 效 算法 方面 的 作 
用 。 为 了 使 本 章 完整 ， 我 们 重复 一 些 在 2.6 节 所 涉及 的 信息 ， 在 证 明 中 会 引用 那 一 节 中 的 内 容 。 
在 本 章 的 后 面 ， 还 引用 了 在 5.4 节 和 5.5 节 中 所 分 析 的 二 叉 树 的 基本 性 质 。 


12.1 符号 表 抽 象 数据 类 型 


如 同 优先 队列 一 样 ， 我 们 把 搜索 算法 看 作 声 明了 各 种 操作 的 接口 。 这 些 操作 可 以 从 某 种 
现 中 分 离 出 来 ， 我 们 可 以 很 容易 地 用 备 选 的 实现 进行 替换 。 这 些 操作 有 : 

。 插 入 (insert) 一 个 数据 项 。 

。 搜 索 (search) 一 个 具有 给 定 关键 字 的 数据 项 〈 或 是 若干 数据 项 ) 。 

。 删除 (deiete) 一 个 特定 数据 项 。 

。 在 符号 表 中 选择 (select) 第 个 最 小 数据 项 。 

。 对 符号 表 排 序 (sort) (按照 关键 字 的 顺序 访问 所 有 数据 项 )。 

* 连 接 (join) 两 个 符号 表 。 

像 对 待 很 多 的 数据 结构 一 样 ， 我 们 需要 向 这 个 集合 中 添加 标准 初始 化 、 测 试 是 否 为 空 ， 
以 及 销毁 和 复制 操作 。 此 外 ， 我 们 希望 对 这 个 基本 接口 进行 各 种 其 他 修改 。 例 如 ， 搜 索 并 插 
入 操作 也 是 很 有 意义 的 ， 因 为 对 于 很 多 实现 ， 即 使 关键 字 的 查找 不 成 功 ， 也 为 插入 一 个 带 有 
该 关键 字 的 新 数据 项 提供 了 确切 的 信息 。 

我 们 通常 使 用 术语 “搜索 算法 ”来 表示 “符号 表 的 ADT 实 现 ”， 尽 管 后 者 更 恰当 的 意思 是 : 
定义 并 构造 符号 表 的 一 个 基本 的 数据 结构 ， 并 实现 除 搜索 以 外 的 ADT 操 作 。 符 号 表 对 于 很 多 
计算 机 应 用 是 如 此 重要 ， 以 至 于 它们 作为 很 多 编程 环境 的 高 级 抽象 来 使 用 〈C 语 言 标准 库 中 有 
bsearch 函 数 ， 实 现 了 12.4 节 的 二 分 搜索 算法 ) 。 通 常 ， 通 用 的 实现 来 满足 各 种 应 用 所 和 需 的 功 
能 是 很 难 的 。 现 在 已 经 研制 出 许多 用 于 实现 符号 表 抽 象 的 创造 性 方法 ， 我 们 对 它们 的 研究 将 
设 定 一 个 环境 ， 以 帮助 了 解 预 先 封装 的 实现 方法 的 特性 ， 并 确定 什么 时 候 应 该 开发 一 种 专用 
于 某 种 特定 应 用 的 实现 方案 。 

如 我 们 在 排序 中 所 作 的 那样 ， 我 们 将 考虑 没有 指定 待 处 理 数据 项 的 类 型 的 方法 。 按 照 6.8 
节 中 讨论 的 方式 ， 我 们 分 析 使 用 一 个 接口 的 实现 ， 该 接口 定义 了 Item 和 在 数据 上 的 基本 抽象 
操作 。 我 们 分 析 基 于 比较 的 方法 和 基于 基数 的 方法 ， 后 者 使 用 关键 字 或 关键 字 的 一 部 分 作为 
索引 。 为 了 强调 数据 项 和 关键 字 在 搜索 中 所 起 的 各 自作 用 ， 我 们 扩展 在 第 6 章 至 第 11 章 所 使 用 
的 I1tem 的 概念 ,使 得 数据 项 包含 类 型 为 Key 的 关键 字 。 在 描述 算法 时 ， 我们 常用 的 简单 情况 是 ， 
数据 项 是 由 关键 字 组 成 ，Key 和 Item 是 一 样 的 ， 这 种 变化 没有 影响 ， 但 增加 Key 类 型 使 我 们 在 
引用 数据 项 和 关键 字 时 非常 明了 。 我 们 还 使 用 宏 key 把 关键 字 存 人 数据 项 或 从 数据 项 中 取出 关 
键 字 ， 并 使 用 基本 操作 eq 测试 两 个 关键 字 是 否 相等 。 在 本 章 和 第 13 章 里 ， 我 们 还 使 用 1ess 操 
作 比 较 两 个 关键 字 的 值 ， 指 导 搜 索 方 向 。 在 第 14 章 和 第 15 章 ， 搜 索 算法 基于 第 10 章 所 用 的 基 
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本 基数 操作 ， 来 取出 关键 字 的 一 部 分 。 当 符号 表 中 不 存在 含 搜索 关键 字 的 数据 项 时 ， 使 用 常 
量 NULLitem 作 为 返回 值 。 为 了 使 用 6.8 节 和 6.9 节 的 浮 点 数 、 字 符 串 和 更 多 复杂 数据 项 的 接口 和 
实现 进行 搜索 ， 我 们 只 需要 实现 相应 的 Key、key、NULLitem、eq 和 1ess 的 定义 。 

程序 12.1 是 定义 了 基本 符号 表 操作 〈 除 了 join 操作 ) 的 接口 。 在 本 章 和 接 下 来 的 几 章 中 ， 
我 们 将 在 客户 程序 和 所 有 搜索 实现 之 间 使 用 这 个 接口 。 在 程序 12.1 中 还 定义 了 这 个 接口 的 一 
个 版 本 ， 类 似 于 程序 9.8 中 所 做 的 那样 ， 使 每 个 函数 把 符号 表 的 句柄 作为 参数 ， 来 实现 一 级 符 
号 表 ADT， 它 可 以 为 客户 提供 使 用 多 个 符号 表 的 能 力 (包含 同一 种 类 型 的 对 象 ) ( 见 4.8 节 )， 
但 这 种 不 必要 的 安排 复杂 化 了 只 使 用 一 个 符号 表 的 程序 ( 见 练 习 12.4) 。 我 们 还 可 以 定义 程序 
12.1 中 接口 的 一 个 版 本 ， 像 在 程序 9.8 中 那样 ， 操 纵 数 据 项 的 句柄 ( 见 练习 12.5)， 但 这 种 不 必 
要 的 安排 复杂 化 了 只 用 关键 字 就 足以 操纵 数据 项 的 一 般 情 况 。 在 我 们 的 实现 中 ， 假 设 只 有 一 
个 由 ADT 维 护 的 符号 表 在 用 ， 那 么 我 们 能 够 集中 在 算法 上 ， 而 不 需要 考虑 打包 的 情况 。 在 合 
适 的 时 候 ， 我 们 将 回 到 这 个 问题 上 来 。 特 别 是 ， 在 讨论 delete 算 法 时 ， 我 们 必须 意识 到 提供 了 
句柄 的 实现 在 删除 之 前 不 需要 搜索 ， 因 而 可 以 有 快速 算法 用 于 某 些 实现 。 同 样 ，join 操 作 只 在 
一 级 符号 表 ADT 实 现 中 定义 ， 因 而 我 们 在 考虑 join 算法 时 ， 需要 一 级 ADT ( 见 12.9 节 )。 


1 程序 12.1 符号 表 抽象 数据 类 型 ， 

这 个 接口 定义 了 一 个 简单 符号 表 的 操作 ， 初始 化 、 返回 数据 项 的 统计 数 、 添加 数据 项 、 
找 上 共有 给 定 关键 字 的 数据 项 、 删 除 具 有 给 定 关 键 字 的 数据 项 、 选 择 第 k 个 最 小 数据 项 以 及 按 昭 
关键 字 的 顺序 访问 数据 项 (调用 一 个 过 程 ， 每 个 数据 项 作为 参数 传递 )。 

void STinit (int); 

int STcount(); 

void STinsert(Item); 

Item STsearch(Key); 

void STdelete (Item); 

Item STselect (int); 

void STsort (void (*visit) (Item)); 


某 些 算法 并 不 假设 任何 关键 字 之 间 存 在 隐 含 的 顺序 ， 因 此 只 使 用 eq (而 不 是 1ess) 来 比 
较 关 键 字 ， 但 符号 表 的 很 多 实现 使 用 1ess 隐 含 的 关键 字 之 间 的 顺序 关系 ， 来 结构 化 数据 ， 并 
指导 搜索 方向 。 同 样 ，select 和 sort 抽 象 操 作 明 确 了 调用 关键 字 的 顺序 。sort 函 数 打 包 为 按照 顺 
序 处 理 所 有 数据 项 的 函数 ， 不 需 对 数据 项 重 排 。 这 一 设置 使 得 按照 顺序 输出 很 容易 ， 同 时 保 
持 了 动态 符号 表 的 灵活 性 和 高 效 性 。 没 有 使 用 less 的 算法 并 不 要 求 关 键 字 要 与 另 一 关键 字 进 
行 比较 ， 也 不 需要 支持 select 和 sort 操 作 。 

在 符号 表 的 实现 中 ， 应 该 考虑 那些 可 能 具有 相同 关键 字 的 数据 项 。 某 些 应 用 不 允许 关键 
字 相 同 ， 因 而 关键 字 可 以 用 作 句 柄 。 这 种 情况 的 一 个 例子 是 在 个 人 文件 中 把 身份 证 号 作为 关 
键 字 。 还 有 其 他 应 用 包含 相同 关键 字 的 大 量 数 据 项 ， 例 如 ， 文 档 数 据 库 中 的 关键 字 搜索 一 般 
会 得 到 多 个 查询 结果 。 

我 们 可 以 使 用 几 种 方法 来 处 理 带 有 相同 关键 字 的 数据 项 。 一 种 方法 是 主 搜索 数据 结构 只 
包含 带 有 不 同 关键 字 的 数据 项 ， 并 且 对 于 每 个 关键 字 ， 维 持 一 个 指向 含 相同 关键 字 的 数据 项 
组 成 的 一 个 表 的 链接 。 也 就 是 说 ， 在 主 数据 结构 中 ， 我 们 使 用 的 数据 项 包含 一 个 关键 字 和 一 
个 链接 ， 并 且 数 据 项 不 含 相同 关键 字 。 这 种 安排 在 某 些 应 用 中 很 方便 ， 因 为 一 次 search 操 作 返 
回 所 有 具有 给 定 搜索 关键 字 的 数据 项 ， 或 者 一 次 delete 操 作 去 除 所 有 具有 给 定 搜索 关键 字 的 数 
据 项 。 从 实现 的 角度 来 看 ， 这 种 安排 等 价 于 把 相同 关键 字 的 管理 留 给 客户 程序 。 第 二 种 方法 
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是 把 相同 关键 字 的 数据 项 留 给 主 搜索 数据 结构 ， 并 返回 一 次 搜索 中 具有 给 定 关键 字 的 任何 数 
据 项 。 这 种 约定 对 于 那些 一 次 处 理 一 个 数据 项 的 过 程 较 简单 ， 并 且 在 这 个 过 程 中 含 相同 关 键 
字 的 数据 项 的 处 理 顺 序 不 太 重要 。 从 算法 设计 方面 来 看 可 能 不 方便 ， 因 为 接口 可 扩展 成 包含 
检索 所 有 给 定 关键 字 的 数据 项 的 机 制 ， 或 者 针对 含 给 定 关 键 字 的 每 个 数据 项 调用 特定 函数 。 
第 三 种 方法 是 假设 每 个 数据 项 具有 惟一 的 标识 符 (从 关键 字 中 分 离 出 来 ) ， 要 求 针 对 给 定 的 关 
键 宇 ， 搜 索 具 有 给 定 标识 符 的 数据 项 ， 或 者 需要 一 些 更 复杂 的 机 制 。 这 些 考虑 的 因素 都 可 以 
应 用 到 有 相同 关键 字 出 现 的 符号 表 的 所 有 操作 中 。 我 们 真 的 想 要 删除 具有 给 定 关键 字 的 所 有 
数据 项 ， 或 者 具有 给 定 关 键 字 的 任何 数据 项 ， 或 者 删除 某 个 数据 项 (这 需要 一 个 实现 来 提供 
数据 项 的 处 理 句 柄 ) 吗 ? 当 描 述 符号 表 的 实现 时 ， 我 们 非 形式 地 表明 怎样 可 以 最 便捷 地 处 理 
相同 关键 字 的 数据 项 ， 而 不 需要 考虑 每 种 实现 的 每 种 机 制 。 

程序 12.2 是 一 典型 的 客户 程序 ， 描 述 了 符号 表 实 现 中 的 那些 约定 。 它 使 用 符号 表 来 查找 一 
组 关键 字 中 的 不 同 值 随 机 产生 的 或 从 标准 输入 读 取 的 )， 然后 按照 排序 了 后 的 顺序 打印 出 来。 


程序 12.2 符号 表 客 户 程 序 示例 


这 个 程序 使 用 符号 表 来 查找 一 个 序列 中 的 不 同 关键 字 ， 该 序 序列 随机 生成 或 从 标准 输入 读 
取 。 对 于 每 个 关键 字 ， 它 使 用 STsearch 检 查 关 键 字 是 否 出 现 过 。 如 果 关 键 字 尚未 出 现 过 ， 就 
把 包含 关键 字 的 数据 项 插入 到 符号 表 中 ， 关 键 字 和 数据 项 的 类 型 以 及 作用 在 它们 上 的 抽象 操 
作 都 在 Item.h 中 指定 。 

#include <stdio.h> 

#include <stdlib.h> 

#include "Item.h" 

#include "ST.h" 

void main(int argc, char *argv[]) 

{f int N, maxN = atoi(argv[1]), sw = atoi(argv[2]); 

Key Vi Item itenm; 
STinit (maxN) ; 
for (N= 0; N < maxN; N++) 
{ 
if (sw) v = ITEMrand(); 
else if (ITEMscan(&v) == EOF) break; 
if (STsearch(v) 1= NULLitem) continue; 
key(item) = Vi 
STinsert (item); 
} 
STsort (ITEMshow); printf("\n"); 
printf("%d keys ", N); 
printf("%d distinct keys\n", STcount()); 
了 


通常 ， 我 们 必须 意识 到 符号 表 操 作 的 不 同 实现 具有 不 同 的 性 能 特征 ， 这 可 能 依赖 于 各 种 
操作 的 混合 结果 。 一 种 应 用 (也 许 是 构造 一 个 表 ) 可 能 不 太 使 用 insert 操 作 ， 接 着 后 跟 大 量 的 
Search 操 作 ， 男 一 种 应 用 可 能 是 在 较 小 的 表 上 大 量 使 用 insert 操 作 和 delete 操 作 ， 混 合 着 一 些 
search 操 作 。 并 不 是 所 有 的 实现 都 会 支持 所 有 的 操作 ， 某 些 实现 可 能 提供 对 某 些 功能 的 高 效 支 
持 ， 而 其 他 功能 开销 昂贵 ， 并 隐 含 假设 开销 昂贵 的 功能 执行 次 数 很 少 。 符 号 表 接 口中 每 个 基 
本 操作 都 有 重要 应 用 ， 很 多 基本 数据 结构 都 要 求 能 够 高 效 地 使 用 操作 的 各 种 组 合 。 在 本 章 和 
接 下 来 的 几 章 里 ， 我 们 将 重点 放 在 基本 功能 initialize、insert 和 search 的 实现 上 ， 并 在 合适 的 时 
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候 对 delete、select、sort 和 join 操作 做 一 些 评 论 。 考 虑 的 算法 种 类 繁多 ， 是 由 于 基本 操作 的 各 
种 组 合 具 有 不 同 的 性 能 特征 ， 同 时 对 关键 字 的 约束 条 件 也 有 所 不 同 ， 或 者 由 于 数据 项 大 小 ， 
或 是 其 他 因素 所 致 。 

在 本 章 里 ， 我 们 将 要 看 到 search、insert、delete 和 select 操 作 的 实现 ， 平 均 来 说 ， 对 于 随机 
关键 字 , 这 些 实现 所 需 时 间 与 符号 表 中 的 数据 项 个 数 成 对 数 关 系 ， 完 成 sort 操 作 的 时 间 为 线性 。 
在 第 13 章 中 ， 我 们 将 分 析 保 证 这 一 性 能 级 的 方法 ， 并 在 12.2 节 和 第 14 章 及 第 15 章 的 几 节 中 看 
到 一 种 实现 ， 在 某 些 条 件 下 ， 这 种 实现 可 以 达到 常量 时 间 的 性 能 。 

我 们 已 经 研究 了 关于 符号 表 的 很 多 操作 。 例 子 有 : 手指 搜索 ， 搜 索 可 以 从 以 前 的 结束 点 
开始 ， 范 围 搜索 ， 统 计 或 访问 落 入 某 个 区 间 的 节点 ， 当 我 们 有 关键 字 之 间 上 距离 的 概念 时 ， 近 
邻 搜 索 ， 查 找 距离 某 一 给 定 关键 字 最 近 的 关键 字 的 数据 项 。 我 们 在 第 六 部 分 的 几何 算法 中 将 
要 研究 这 样 的 操作 。 
练习 
>12.1 使 用 符号 表 ADT 程 序 12.1， 实 现 栈 和 队列 ADT。 
>12.2 使 用 接口 程序 12.1 定 义 的 符号 表 ADT， 实 现 一 个 支持 delete-the-maximum 操 作 和 delete- 
thbe-minimum 操 作 的 优先 队列 ADT。 

12.3 ”使 用 接口 程序 12.1 定 义 的 符号 表 ADT， 实 现 一 个 与 第 6 童 至 第 10 章 内 容 相 容 的 数组 排序 。 
12.4 为 一 级 符号 表 ADT 定 义 一 个 接口 ， 它 允许 客户 程序 维持 多 个 符号 表 和 合并 多 个 表 ( 见 
4.8 节 和 9.5 节 )。 

12.5 ”为 一 级 符号 表 ADT 定 义 一 个 接口 ， 它 允许 客户 程序 通过 句柄 删除 特定 数据 项 和 改变 关 
键 字 的 值 ( 见 4.8 节 和 9.5 节 )。 

>12.6 给 出 一 个 数据 项 类 型 的 接口 和 针对 有 两 个 域 的 数据 项 的 实现 ,一 个 16 位 整 型 关键 字 和 
一 个 包含 关联 关键 字 信 息 的 字符 串 。 

12.7 对 N = 10, 10，10”，10 和 105， 在 小 于 1000 的 NN 个 随机 正 整 数 中 ， 给 出 示例 驱动 程序 
(程序 12.2) 找 出 的 不 同 关键 字 的 平均 数 。 用 实验 确定 你 的 答案 或 者 从 理论 上 进行 分 析 ， 或 者 
两 者 都 做 。 


12.2 关键 字 索 引 搜索 


假定 关键 字 的 值 是 不 同 的 小 整数 。 在 这 种 情况 下 ， 最 简单 的 搜索 算法 是 对 存储 在 数组 中 
的 数据 项 进行 排序 ， 并 按 关 键 字 进 行 索引 ， 如 程序 12.3 中 给 出 的 实现 那样 。 代 码 很 直接 : 用 
NULLitem 初 始 化 所 有 项 ， 然 后 通过 把 关键 字 值 为 k 的 数据 项 存储 在 st[k] 中 实现 insert 操 作 ， 并 
通过 检查 st[k] 的 值 来 搜索 一 个 关键 字 值 为 k 的 数据 项 。 要 删除 一 个 关键 字 值 为 k 的 数据 项 ， 就 
把 NULLitem 放 在 st[k] 中 。 程 序 12.3 中 的 select、sort 和 count 操 作 的 实现 是 通过 对 数组 进行 线性 
扫描 并 跳 过 空 的 数据 项 来 完成 的 。 这 些 实现 把 处 理 相同 关键 字 的 数据 项 的 任务 留 给 了 客户 程 
序 ， 并 对 不 在 表 中 的 关键 字 执 行 删除 时 进行 检查 。 


程序 12.3 基于 关键 守 索 引 数 组 的 符号 表 


这 个 代码 假设 关键 字 的 值 是 小 于 naxkey 的 正 整数 《在 Iten_h 中 定义 )。 限制 它 应 用 的 主要 
因素 是 当 maxKey 较 大 时 ， 对 空间 的 需求 ， 以 及 当 N 相 对 maxKey 较 小 时 ， 针 对 STinit 的 时 间 要 求 。 

把 对 这 个 代码 进行 的 编译 作为 独立 的 模块 ， 需 要 包 仿 <stdlib.h>、"Item.h" 和 "ST.h" 的 
include 指 令 。 我 们 在 这 个 符号 表 的 实现 以 及 其 他 符号 表 的 实现 中 省 略 了 这 些 代码 。 
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static Ttem *St; 
static int M = maxkey; 
void STinit(int maxN) 
{ int i; 
st = malloc((M+1)*sizeof (Item)); 
for (i = 0; i <= M; i++) st[i] = NULLitem; 


} 
int STcount() 
{ int i, N= 0; 
for (i = 0; i < M; i++) 
if (st[i] 1= NULLitem) N++; 
return N; 


void STinsert (Item item) 
{ st[key(item)] = item; } 
Item STsearch (Key v) 
{ return st[v]; } 
void STdelete(Item item) 
{ st[key(item)] = NULLitem; } 
Item STselect(int k) 
{ int i; 
for (i = 0; i < M; i++) 
if (st[i] != NULLitem) 


if (k-- == 0) return st[i]; 
} 
void STsort (void (*visit) (Item)) 
{ int i; 


for (i = 0; i < M; i++) 
if (st[i] != NULLitem) visit(st[Lil]); 
} 


对 于 我 们 在 本 章 和 第 13 章 至 第 15 章 考虑 的 符号 表 的 实现 来 说 ， 这 个 实现 是 关键 。 使 用 指 
明 的 inc1ude 指 令 ， 可 从 任何 客户 程序 对 这 个 实现 进行 编译 ， 并 用 于 大 量 不 同 客户 程序 和 不 同 
数据 项 类 型 的 实现 中 。 编 译 器 将 会 检查 这 个 接口 、 实 现 以 及 绑 定 到 相同 定义 约定 的 客户 程序 。 

基于 关键 字 索 引 搜 索 的 索引 操作 和 我 们 在 6.10 节 分 析 的 基于 关键 字 索 引 的 计数 排序 方法 中 
的 基本 操作 是 一 样 的 。 当 基于 关键 字 索 引 搜 索 可 以 应 用 时 ， 它 是 一 种 可 选 的 方法 ， 因 为 search 
和 insert 操 作 几 乎 不 能 更 高 效 地 实现 。 

如 果 没 有 任何 数据 项 〈 只 是 关键 字 ) ， 我 们 可 以 使 用 位 表 。 在 这 种 情况 下 ， 符 号 表 就 称 为 
存在 表 (existence table)， 因 为 我 们 可 以 把 第 位 看 作 表 明 k 是 否 存 在 于 表 的 关键 字 集 中 的 标志 。 
例如 ， 在 一 个 32 位 的 计算 机 上 ， 使 用 包括 313 个 单词 的 表 ， 我 们 可 以 使 用 这 种 方法 快速 决定 电 
话 交换 机 中 的 一 个 给 定 的 4 位 数字 是 否 已 被 分 配 ( 见 练习 12.12)。 

性 质 12.1 ”如果 关 键 字 值 是 小 于 M 的 正 整数 ， 且 数据 项 的 关键 字 各 不 相同 ， 那 么 基于 关键 
字 索 引 的 数据 项 数组 ,可 以 实现 符号 表 数 据 类 型 ， 使 得 在 一 个 含有 N 个 数据 项 的 表 上 执行 插入 、 
搜索 和 删除 操作 所 需 时 间 为 常量 ， 初 始 化 、 选 择 和 排序 操作 所 需 时 间 与 MM 成 正比 。 

这 一 事实 可 由 直接 观察 代码 而 得 。 注 意 关 键 字 曾 含 的 条 件 是 N<M。 图 

程序 12.3 并 没有 处 理 关 键 字 相同 的 情况 ， 而 是 假设 关键 字 的 值 位 于 0 和 maxKey 一 1 之 间 。 我 
们 可 以 使 用 链表 或 者 12.1 节 中 提 到 的 其 他 方法 来 存储 具有 重复 关键 字 的 数据 项 ， 并 且 在 使 用 关 
键 字 作为 索引 之 前 ， 可 对 它们 做 一 简单 变换 〈 见 练习 12.11) ， 但 是 我 们 把 这 些 情 况 放 到 第 14 章 
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再 具体 分 析 。 第 14 章 主题 是 散 列 (hashing) ， 它 使 用 同样 的 方法 实现 一 般 关 键 字 的 符号 表 ， 把 
关键 字 从 一 个 潜在 较 大 的 范围 转换 到 一 个 较 小 的 范围 ， 然 后 对 具有 相同 关键 字 的 数据 项 进行 
相应 的 处 理 。 在 这 里 ， 我 们 假设 如 果 一 个 旧 数 据 项 的 关键 字 的 值 与 一 个 待 插入 的 数据 项 的 关 
键 字 的 值 相等 ， 那么 就 忽略 这 种 情况 ( 见 程序 12.3) ， 或 者 作为 出 错 条 件 处 理 ( 见 练习 12.8)。 

程序 12.3 中 所 实现 的 “计数 ”操作 是 一 种 懒 方法 ， 只 在 调用 函数 STcount 时 才 工 作 。 另 一 
种 积极 方法 是 用 一 个 局 部 变量 来 维持 非 空 表 位 置 的 计数 ， 如 果 插 和 对象 在 表 中 含有 NULLitem 
的 位 置 ， 就 对 该 变量 增 1 ， 如 果 删 除 对 象 在 表 中 不 含 NULLitem 的 位 置 ， 就 对 该 变量 减 1 ( 见 练 
习 12.9) 。 如 果 count 操 作 很 少 使 用 (或 根本 不 用 ) 且 可 用 关键 字 值 的 数目 较 少 ， 懒 方法 是 这 两 
种 方法 中 较 好 的 方法 ， 如 果 count 操 作 使 用 频繁 或 者 可 用 关键 字 值 的 数目 较 多 ， 积 极 方法 是 这 
两 种 方法 中 较 好 的 方法 。 通 用 的 库 例 程 喜 欢 用 积极 方法 ， 因 为 该 方法 提供 了 一 种 最 坏 情况 下 
的 最 优 性 能 ， 付 出 的 代价 是 “ 播 入 ”操作 和 “删除 ”操作 的 一 个 小 的 常数 因子 ， 在 一 个 有 大 
量 “ 插 入 ”操作 和 “删除 ”操作 但 较 少 “计数 ”操作 的 应 用 的 内 循环 中 ， 懒 方法 是 首选 方法 ， 
因为 它 给 出 了 公共 操作 的 快速 实现 。 在 设计 支持 各 种 混合 操作 的 ADT 中 ， 这 种 进退 两 难 的 情 
况 很 常见 ， 我 们 已 经 看 到 了 几 种 这 样 的 情况 。 

使 用 关键 字 索 引 数 组 作为 基本 数据 结构 ， 完 全 实现 一 级 符号 表 的 ADT， 我 们 可 以 动态 对 
数组 进行 分 配 ， 并 把 它 的 地 址 作为 句柄 。 在 开发 这 样 的 接口 中 ， 还 有 很 多 其 他 的 设计 决定 需 
要 我 们 做 出 。 例 如 ， 关 键 字 的 范围 应 该 对 所 有 对 象 相同 ， 还 是 不 同 对 象 有 不 同 的 关键 字 范 
围 ? 如 果 选 择 后 者 ， 那 么 需要 有 一 个 函数 ， 使 客户 能 够 访问 到 关键 字 范 围 。 

关键 字 索 引 数 组 应 用 广泛 ， 但 如 果 关 键 字 的 范围 较 大 ， 该 方法 则 不 适用 。 实 际 上 ， 我 们 
在 本 章 和 以 下 的 几 章 里 ， 主 要 关注 为 这 样 一 种 情况 设计 解决 方案 ， 即 关键 字 的 范围 较 大 ， 每 
个 可 能 位 置 存 放 一 个 关键 字 的 索引 表 不 可 行 。 
练习 
12.8 使 用 动态 分 配 关 键 字 索引 数组 ， 实 现 一 级 符号 表 ADT ( 见 练习 12.4) 的 接口 。 
>12.9 ”修改 程序 12.3 的 实现 (记录 非 空 项 的 个 数 )， 提 供 Stcount 积 极 实 现 。 
>12.10 修改 练习 12.8 的 实现 ( 见 练 习 12.9)， 提 供 5tcount 积 极 实现 。 

12.11 使 用 把 关键 字 转 换 为 小 于 M 的 非 负 整数 的 函数 h(Key)， 基 中 不 存在 两 个 关键 字 映 射 到 
同一 整数 (这 一 改进 也 适用 于 关键 字 范 围 较 小 (不 必 从 0 开始 ) 的 情况 ， 以 及 其 他 简单 情况 )， 
修改 程序 12.1 和 程序 12.3 的 实现 和 接口 。 

12.12 ” 当 数 据 项 是 小 于 M 的 正 整数 关键 字 时 (没有 相关 信息 )， 修 改 程序 12.,1 和 程序 12.3 的 实 
现 和 接口 。 在 实现 中 ， 使 用 动态 分 配 的 大 小 约 为 Mbitsword 字 的 数组 ， 其 中 bitsword 是 你 的 
计算 机 系统 中 每 个 字 的 位 数 。 

12.13 使 用 练习 12.12 的 实现 进行 实验 ， 对 于 小 于 和 N 的 N 个 非 负 整 数 的 一 个 随机 序列 ， 通 过 实 
验 来 确定 其 中 不 同 整数 的 平均 值 和 标准 方差 。N 接 近 于 你 的 计算 机 上 一 个 可 使 用 的 、 表 示 为 位 
数 的 内 存 数量 ( 见 程 序 12.3)。 


12.3 顺序 搜索 


来 自 于 一 个 太 大 范围 的 关键 字 是 不 能 作为 索引 的 。 符 号 表 实 现 的 一 种 简单 方法 是 把 数据 
项 按照 顺序 连续 地 存放 在 数组 中 。 当 要 插入 一 个 新 的 数据 项 时 ， 就 像 插 入 排序 中 所 做 的 那样 ， 
将 较 大 元 素 移动 一 个 位 置 ， 把 新 数据 项 放 进 数组 中 ， 当 要 进行 搜索 时 ， 我 们 顺序 地 查找 数组 。 
因为 数组 是 有 序 的 ， 当 遇 到 一 个 大 于 搜索 关键 字 的 关键 字 时 ， 我 们 可 以 报告 搜索 失败 。 此 外 ， 
因为 数组 是 有 序 的 ，select 操 作 和 sort 操 作 都 很 容易 实现 。 程 序 12.4 是 基于 这 种 方法 的 符号 表 的 
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“程序 12.4: 基于 数组 的 符号 表 (有 序 ) ， we 


像 程序 12 3， 这 一 实现 使 用 数据 项 数组 ， 但 不 含 任意 空 数据 项 。 像 插入 排序 字 那 样 ， 插入 时 ， 
我 们 通过 把 较 大 数据 项 向 右 移 动 一 个 位 置 ， 来 保持 数组 有 序 。 
 STsearch 函 数 通 过 扫描 数组 来 搜索 具有 给 定 关 键 字 的 一 个 数据 项 。 因 为 数组 是 有 序 的 
只 要 遇 到 一 个 大 于 该 关键 字 的 数据 项 ， 就 知道 搜索 关键 字 不 在 表 中 。 sTselect 和 STsort 函 数 
很 简单 ，STdelete 函 数 的 实现 留 做 练习 ( 见 练 习 12.14)。 

static Item *st; 

static int N; 

void STinit(int maxN) 

{ st = malloc((maxN)*sizeof(Item)); N = 0; } 
int STcount () 
{ return Ni } 
void STinsert (Item item) 
{ int j = N++; Key V = key(item); 
while (j>0 && less(v, key(st{j-1]))) 
{ ast[j] = st[j-1]; j--; } 
st[j] = item; 


Item STsearch(Key v) 
{ int j; 
for (j = 0; j < N; j++) 
{ 
if (eq(v, key(st[j]))) return st[j]; 
if (less(v, key(st{[j]))) break; 
} 
return NULLitem; 
} 
Item STselect (int k) 
{ return st[k]; } 
void STsort (void (*visit) (Item)) 
{ int i; 
for (i = 0; i < N; i++) visit(st [i]); 
} 


我 们 可 以 使 用 下 述 方法 对 程序 12.4 的 search 实 现 中 的 内 循环 稍 做 改进 : 对 于 表 中 不 存在 搜 
索 关 键 字 的 数据 项 的 情况 ， 使 用 一 个 观察 哨 来 避免 对 到 数组 尾部 的 测试 。 更 具体 地 说 ， 我 们 
可 以 将 数组 尾部 后 面 的 位 置 作 为 观察 哨 ， 然 后 搜索 总 是 会 在 包含 搜索 关键 字 的 数据 项 结束 ， 
并 且 我 们 可 以 通过 检查 那个 数据 项 是 否 是 观察 哨 来 确定 关键 字 是 否 在 表 中 。 

如 果 不 要 求 数据 项 在 数组 中 有 序 ， 可 以 有 另 一 种 实现 的 方法 。 当 插入 一 个 新 的 数据 项 时 ， 
我 们 把 它 放 在 数组 的 末尾 ， 当 进行 搜索 时 ， 只 要 顺序 查看 数组 即 可 。 这 种 方法 的 特性 是 插入 
快 ， 但 选择 和 排序 需要 大 量 工作 〈 可 采用 第 7 章 至 第 10 章 中 的 一 种 方法 ) 。 删 除 某 个 特定 关键 
字 的 数据 项 时 ， 可 以 先 搜索 它 ， 然 后 把 数组 中 最 后 一 项 移 到 它 的 位 置 ， 且 使 数组 大 小 减 1。 通 
过 重复 执行 这 个 操作 ， 可 以 删除 具有 某 个 特定 关键 字 的 所 有 数据 项 。 如 果 给 出 数组 中 某 个 数 
据 项 的 索引 的 句柄 可 用 ， 那 么 就 不 必 搜索 ， 且 “删除 ”操作 需要 常量 时 间 。 

使 用 链表 是 另 一 种 直接 实现 符号 表 的 方法 。 我 们 可 以 选择 使 链表 有 序 ， 能 够 很 容易 地 支 
持 “ 排 序 ” 操 作 ， 或 者 选择 使 链表 无 序 ， 这 样 “ 播 入 ”操作 很 快 。 程 序 12.5 是 后 者 的 一 种 实 
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现 。 通常 ,使 用 链表 较 之 数组 的 优点 是 ， 我 们 不 需 预测 出 表 的 大 小 ， 缺 点 是 需要 额外 空间 
“存放 链表 ) ， 且 不能 高 效 地 支持 “选择 " 操作 。 


”程序 12.5” 基 于 链表 的 符号 至 (无 序 ) 


initialize、count、seareh 和 insert 操 作 的 实现 使 用 了 单 链表 ， 其 中 每 个 节点 由 带 有 关键 字 
的 数据 项 和 一 个 链接 组 成 。STinsert 函 数 把 新 的 数据 项 放 在 表 头 ， 需 要 常量 时 间 。STsearch 
函数 使 用 递归 函数 searchR 来 扫描 链表 。 因 为 链表 是 无 序 的 ， 因 而 不 支持 sort 和 select 操 作 。 


typedef struct STnode* link; 
struct STnode { Item item; link next; }; 
static link head, z; 
static int N; 
static link NEW(Item item, link next) 
{ link x = malloc(sizeof *x); 
xX->item = item; x->next = next; 
return x; 
} 
void STinit(int max) 
{N= 0; head = (z = NEW(NULLitem, NULL)); } 
int STcount() { return N; } 
Item searchR(link t, Key v) 
{ 
if (t == Z) return NULLitenm; 
if (eq(key(t->item), v)) return t->itenm; 
return searchR(t->next, v); 


Item STsearch(Key v) 

{ return searchR(head, v); } 
void STinsert(Item item) 

{ head = NEW(item, head); N++; } 


无 序数 组 和 有 序 链表 的 方法 留 做 练习 ( 见 练习 12.8 和 练习 12.19)。 在 应 用 中 可 根据 我 们 期 
望 的 时 间 和 空间 需求 来 选择 这 四 种 实现 的 方法 (有 序数 组 、 无 序数 组 、 有 序 表 和 无 序 表 )。 在 
本 章 和 接 下 来 的 儿 章 里 ， 我 们 将 要 分 析 大 量 符号 表 实 现 问题 的 不 同方 法 。 

保持 数据 项 有 序 是 对 以 下 思想 的 一 种 描述 ， 符 号 表 实 现 一 般 使 用 关键 字 以 某 种 方式 结构 化 
数据 来 提供 快速 搜索 。 这 种 结构 可 能 允许 快速 实现 某 些 其 他 的 操作 ， 但 所 节省 的 开销 一 定 要 
与 维持 结构 的 开销 保持 平衡 ， 因 为 后 者 可 能 减 慢 其 他 操作 的 速度 。 我 们 将 看 到 这 种 构想 的 很 
多 例子 。 例 如 ， 在 一 个 频繁 使 用 “排序 ”函数 的 应 用 中 ， 我 们 选择 有 序 (数组 或 链表 ) 表示 ， 
因为 所 选择 的 表 结 构 使 排序 函数 很 简单 ， 反 之 ， 则 需要 完整 的 排序 实现 。 在 一 个 频繁 使 用 
“选择 ”操作 的 应 用 中 ， 我 们 会 选择 有 序数 组 表示 法 ， 因 为 这 种 表 结 构 使 得 “选择 ”操作 的 时 
间 为 常量 。 对 比 之 下 ， 在 链表 中 的 “选择 ”操作 时 间 为 线性 时 间 ， 即 使 是 有 序 链表 也 如 此 。 

为 了 更 详细 地 分 析 随 机 关键 字 的 顺序 搜索 性 能 ， 我 们 考虑 插入 新 关键 字 的 开销 ， 分 为 成 
功 搜 索 和 不 成 功 搜索 两 种 情况 来 考虑 。 我 们 常常 把 前 者 看 作 搜 索 命中 (search hit) ， 把 后 者 看 
作 搜 索 失 败 (search miss)。 我 们 对 命中 和 失败 的 平均 开销 和 在 最 坏 情 况 下 的 开销 感 兴 趣 。 严 
格 来 讲 ， 有 序数 组 的 实现 ( 见 程序 12.4) 对 于 每 个 检查 的 数据 项 使 用 两 次 比较 (一 次 eq 和 一 
次 less)。 为 了 分 析 ， 我 们 在 第 12 章 至 16 章 中 ， 把 这 样 的 一 对 比较 看 作 单 个 比较 ， 因 为 我 们 可 
以 通过 低层 次 的 优化 对 它们 进行 高 效 的 组 合 。 
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性 质 12.2 在 N 个 数据 项 的 符号 表 中 进行 顺序 搜索 ， 搜 索 命中 (平均 ) 需要 大 约 N/2 痰 比较 。 

见 性 质 2.1。 结 论 适用 于 有 序数 组 、 无 序数 组 、 有 序 链表 或 无 序 链表 的 情况 。 国 

性 质 12.3 在 N 个 无 序数 据 项 的 符号 表 中 进行 顺序 搜索 ， 插 入 操作 需要 常量 的 步 数 ， 搜 索 
失败 (总 是 ) 需要 NN 次 比较 。 

这 些 事实 对 于 数组 和 链表 表示 都 成 立 ， 由 实现 直接 可 得 〈 见 练习 12.18 和 程序 12.5)。 ” 国 

性质 12.4 ”在 N 个 有 序数 据 项 的 符号 表 中 进行 顺序 搜索 ， 揪 入 操作 、 搜 索 命 中 和 搜索 失败 
平均 大 约 需要 N/2 次 比较 。 

见 性 质 2.2。 这 些 事实 对 于 数组 和 链表 表示 都 成 立 ， 由 实现 直接 可 得 ( 见 程序 12.4 和 练习 
12.19) 。 国 

通过 连续 插入 来 构造 一 个 有 序 表 等 价 于 运行 6.2 节 的 插入 一 排序 算法 。 构 造 表 的 总 运行 时 
间 为 二 次 时 间 ， 因 而 我 们 并 不 把 这 种 方法 用 于 大 表 的 构造 。 如 果 在 一 个 较 小 的 表 中 ， 需 要 进 
行 大 量 “ 搜 索 ” 操 作 ， 那 么 维持 数据 项 有 序 是 值得 的 ， 因 为 性 质 12.3 和 性 质 12.4 告 诉 我 们 对 于 
搜索 失败 的 情况 ,这 种 策略 可 以 节省 2 倍 的 时 间 。 如 果 有 重复 关键 字 的 数据 项 没有 保存 在 表 中 ， 
维持 表 有 序 的 额外 开销 并 非 表面 看 上 去 那样 繁重 ， 因 为 “插入 ”操作 只 发 生 在 搜索 失败 之 后 ， 
因而 “插入 ”的 时 间 与 “搜索 ”的 时 间 成 正比 。 另 一 方面 ， 如 果 把 有 重复 关键 字 的 数据 项 保 
存在 表 中 ， 那 么 在 无 序 表 中 进行 “插入 ”实现 的 时 间 为 常量 时 间 。 对 于 那些 有 大 量 “ 插 入 ” 
操作 和 相对 较 少 “搜索 ”操作 的 应 用 ， 倾 向 选择 使 用 无 序 表 。 

除了 这 些 差异 ， 我 们 还 有 一 些 标准 的 权衡 。 在 链表 实现 中 链接 需要 占用 空间 ， 在 数组 实 
现 中 需要 预先 知道 表 的 最 大 值 ， 或 者 表 能 够 平 摊 增 长 〈 见 14.5 节 ) ， 就 像 在 12.9 节 讨论 过 的 那 
样 ， 在 一 级 符号 表 ADT 的 实现 中 ， 链 表 实 现 可 以 灵活 且 高 效 地 实现 其 他 操作 ， 如 join 操作 和 
delete 操 作 。 

表 12-1 概 述 了 这 些 结 果 ， 并 把 它们 放 在 本 章 稍 后 讨论 的 和 第 13 章 及 第 14 章 讨论 的 其 他 搜 
索 算 法 中 。 在 12.4 节 ， 我 们 考虑 二 分 搜索 ， 这 种 方法 使 得 搜索 时 间 下 降 到 lg N， 并 广泛 地 用 于 
静态 表 中 (其 中 “插入 ”操作 较 少 出 现 )。 


表 12-1 符号 表 中 插入 和 搜索 的 开销 


本 表 中 的 项 是 在 一 个 常量 因子 范围 内 的 运行 时 间 ， 该 因子 是 表 中 数据 项 数 WN 和 表 的 大 小 M (可 不 同 于 N) 的 函数 ， 
实现 中 可 以 插入 新 数据 项 ， 与 表 中 数据 项 是 否 有 重复 关键 字 无 关 。 基 本 方法 (前 4 行 ) 中 的 某 些 操 作 需 要 常量 时 间 ， 
某 些 操作 需要 线性 时 间 ， 更 高 级 的 方法 对 于 大 多 数 的 操作 保证 对 数 时 间或 常量 时 间 。select 列 的 N lg N 数 据 项 表示 对 
数据 项 排序 的 开销 ， 理 论 上 对 无 序数 据 项 集 进行 线性 时 间 的 “选择 ”操作 是 可 能 的 ， 但 不 切实 际 〈 见 7.8 节 )。 打 星 号 
的 项 是 几乎 不 可 能 出 现 的 最 坏 情 况 。 


最 坏 情 况 平均 情况 
insert Search Select insert search hit search miss 

关键 字 索 引 数 组 I 1 M 1 1 1 

有 序数 组 N N 1 N/2 N/2 N/2 
有 序 链 表 N N N N/2 N/2 N/2 
无 序数 组 I N NlgN 1 N/2 N 
无 序 链表 1 N NlgN 1 N/2 N 
二 分 搜索 N lgN 1 N/2 lgN lgN 
二 又 搜索 树 N N N lgN lgN lgN 
红 黑 树 lgN lgN lgN lg N lgN lgN 
随机 树 N* N* N* lgN leN lgN 


散 列 1 N* NlgN 1 1 1 
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在 第 12.5 节 至 第 12.9 节 ， 我 们 考虑 二 又 搜索 树 ， 这 种 树 结构 使 “搜索 ”操作 和 “插入 ” 操 
作 只 在 平均 时 间 上 与 1g NN 成 正比 。 在 第 13 章 中 ， 我 们 将 考 虚 红 黑 树 和 随机 二 又 搜索 树 ， 它 们 
分 别 可 以 保证 对 数 的 性 能 或 类 似 对 数 的 性 能 。 在 第 14 章 中 ， 我 们 将 考虑 散 列 ， 它 提供 了 在 平 
均 情 况 下 的 常量 “搜索 ”时 间 和 常量 “插入 ”了 时间， 但 并 不 能 高 效 地 支持 “排序 ”和 其 他 操 
作 。 在 第 15 章 中 ,我 们 将 考虑 基数 搜索 方法 ， 它 类 似 于 第 10 章 中 的 基数 排序 方法 。 在 第 16 章 ， 
我 们 将 考虑 对 存储 在 外 部 设备 上 的 文件 适用 的 方法 。 
练习 
>12.14 在 基于 有 序数 组 的 符号 表 实 现 (程序 12.4) 中 增加 一 个 “删除 ”操作 的 实现 
>12.15 在 基于 链表 (程序 12.5) 和 基于 数组 (程序 12.4) 的 符号 表 的 实现 中 ， 实 现 
STsearchinsert 国 数 。 这 些 函 数 在 符号 表 中 搜索 具有 相同 关键 字 的 数据 项 ， 如 果 不 在 表 中 ， 
就 作为 给 定数 据 项 插入 到 符号 表 中 。 
12.16 在 让 了 链表 的 答 表 实现 【程序 12.5) 中 实现 “选择 ”操作 。 
12.17 使 用 基于 四 种 基本 方法 实现 的 ADT， 给 出 把 关键 字 EA SYQUESTIO NN 插入 到 初 
始 为 空 的 表 中 所 需要 的 比较 次 数 ， 这 四 种 方法 是 有 序数 组 、 无 序数 组 、 有 序 表 和 无 序 表 。 假 
设 对 每 个 关键 字 进 行 搜索 ， 然 后 在 搜索 失败 时 执行 “插入 ”操作 ， 就 像 练习 12.15 那 样 。 
12.18 ”使 用 无 序数 组 表示 符号 表 ， 为 程序 12.1 的 符号 表 接 口 实 现 “ 初 始 化 ”"、“ 搜 索 ” 和 “ 插 
入 ”操作 。 你 的 程序 应 该 与 表 12-1 阐 明 的 性 能 特征 相符 。 
o12.19 ”使 用 有 序 链表 表示 符号 表 ， 为 程序 12.1 的 符号 表 接 口 实现 “初始 化 ”、“ 搜 索 ”"、“ 插 入 ” 
和 “排序 ”操作 。 你 的 程序 应 该 与 表 12-1 阐 明 的 性 能 特征 相符 。 
012.20 修改 基于 表 的 符号 表 实 现 (程序 12.5)， 使 其 支持 带 有 客户 数据 项 句柄 的 一 级 符号 表 
ADT ( 见 练 习 12.4 和 练习 12.5)， 然 后 增加 “删除 ”操作 和 “连接 ”操作 。 
12.21 编写 一 个 性 能 驱动 程序 ， 它 使 用 STinsert 填 充 符 号 表 ， 然 后 使 用 STse1lect 和 
STdelete 清 空 表 ， 对 大 小 不 一 的 各 种 长 度 的 关键 字 随 机 序列 执行 多 次 这 样 的 过 程 ， 度 量 每 次 
运行 所 花费 的 时 间 ， 打 印 或 绘 出 平均 运行 时 间 图 。 
12.22 编写 一 个 性 能 驱动 程序 ， 它 使 用 STinsert 填 充 符 号 表 ， 然 后 使 用 STsearch， 使 表 中 
的 每 个 数据 项 平均 搜索 命中 10 次 ， 搜 索 失败 大 约 10 次 ， 对 大 小 不 一 的 各 种 长 度 的 关键 字 随 机 
序列 执行 多 次 这 样 的 过 程 ， 度 量 每 次 运行 所 花费 的 上 时间， 打印 或 绘 出 平均 运行 时 间 图 。 
12.23 ”编写 一 个 练习 驱动 程序 ， 它 使 用 程序 12.1 中 符号 表 接 口中 的 函数 ， 针 对 实际 应 用 中 可 
能 出 现 的 困难 情况 和 病态 情况 。 简 单 例子 包括 已 经 有 序 的 文件 、 逆 序 文件 、 关 键 字 都 相同 的 
文件 、 只 有 两 个 不 同 值 的 文件 。 
co12.24 对 于 随机 混在 一 起 的 要 进行 10" 次 “插入 ”操作 、10" 次 “搜索 ”操作 和 104 次 “选择 ” 
操作 的 应 用 ， 你 会 使 用 哪 一 种 符号 表 ? 并 证 实 你 的 选择 。 
012.25 (这 个 练习 是 5 个 练习 的 另 一 种 形式 。) 对 于 其 他 5 种 相应 的 操作 和 使 用 频率 ， 回 答 练 
习 12.24。 
12.26 ” 自 组 织 搜 索 算法 是 这 样 的 一 种 算法 ， 它 重 排 序数 据 项 ， 使 那些 访问 次 数 多 的 数据 项 在 
搜索 中 较 早 地 找到 。 修 改 练习 12.18 中 的 search 实 现 ， 使 其 在 每 次 搜索 命中 时 执行 以 下 行为 ， 
把 找到 的 数据 项 移 到 表 的 开始 ， 并 把 表 开 始 和 空 出 位 置 之 间 的 所 有 数据 项 向 右 移动 一 个 位 置 。 
这 个 过 程 称 为 “向 前 移动 ”启发 式 算 法 。 
>12.27 先 使 用 search 操 作 ， 然 后 在 搜索 失败 时 使 用 insert 操 作 ， 把 关键 字 为 EASYQUEST 
I O N 的 数据 项 插入 到 初始 为 空 的 表 中 ， 给 出 关键 字 的 顺序 。 其 中 使 用 了 向 前 移动 的 自 组 织 
索 的 启发 式 算法 〈 见 练习 12.26) 。 
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12.28 ”编写 自 组 织 搜索 方法 的 一 个 驱动 程序 ， 它 使 用 STinsert 将 N 个 关键 字 填 充 到 符号 表 ， 
然后 按照 预先 定义 的 概率 分 布 ， 进 行 10N 次 搜索 来 命中 数据 项 。 

12.29 ”使 用 练习 12.28 的 方法 ， 比 较 练习 12.18 实 现 的 运行 时 间 与 练习 12.26 实 现 的 运行 时 间 ， 
其 中 N = 10，100 和 1000， 使 用 概率 分 布 为 ,search 是 以 1/2: 的 概率 搜索 第 i 个 最 大 关键 字 ，1 < 
i<N, 

12.30 ”对 于 概率 分 布 ，search 是 以 HwWi 的 概率 搜索 第 i 个 最 大 关键 字 ，1 <i<N， 做 练习 12.29。 
这 个 分 布 称 为 Zipf 定 律 。 

12.31 比较 向 前 移动 的 启发 式 方法 与 练习 12.29 和 练习 12.30 的 最 优 分 布 排列 法 ， 后 者 使 关键 
字 按 递增 次 序 排列 (使 期 望 频率 的 次 序 递减 ) 。 也 就 是 说 ， 在 练习 12.29 中 使 用 程序 12.4 中 的 方 
法 ， 而 不 是 练习 12.18 中 的 方法 。 


12.4 二 分 搜索 


在 顺序 搜索 的 数组 实现 中 ， 如 果 把 标准 分 
治 法 〈 见 5.2 节 ) 应 用 于 搜索 过 程 ， 可 以 大 大 地 
降低 大 型 数据 项 集合 的 总 搜索 时 间 。 方 法 是 把 
数据 项 集合 分 为 两 部 分 ， 确 定 搜索 关键 字 属 于 
哪 一 部 分 ， 然 后 集中 处 理 那 一 部 分 。 划 分 数据 图 12-1 一 分 搜索 
项 的 一 种 合理 方式 是 保持 数据 项 有 序 ， 然后 在 注 : 在 这 个 样本 文件 中 ， 二 分 搜索 只 使 用 3 次 迁 代 就 找 
有 序数 组 中 使 用 下 标 来 界定 所 要 处 理 的 那 一 部 出 了 搜索 关键 字 L。 第 一 次 调用 ， 算 法 将 蕊 与 文件 
分 数组 。 这 种 搜索 技术 称 为 二 分 搜索 (binary 中 间 的 关键 字 G 比 较 ， 园 为 L 较 大 ， 下 一 次 移 代 处 
search ) 。 程 序 12.6 是 这 种 基本 策略 的 递归 实现 。 理 文件 的 右 壮 部 分 。 接着 > 因为 L 小 于 右 半 部 分 中 
入 22 生计 种 方法 的 有 实 现 。 在 和 一 实 员 。。 an 
中 ， 不 需要 栈 ， 因 为 程序 12.6 中 的 递归 函数 在 小 为 1， 算 法 找到 工 。 
递归 调用 时 结 所 束 。 








”程序 12.6 (基于 数组 的 符号 表 的 ) 二 分 搜索 、 
“STsearch 的 实 现 使 用 一 个 递归 二 分 搜索 过 程 。 要 找 出 一 个 给 定 的 关键 字 -是 否 在 有 序数 组 
中 ， 它 首先 把 * 与 中 间 位 置 的 元 素 进 行 比较 。 如 果 v 较 小 ， 那 么 "必定 在 数组 的 前 半 部 分 ， 如 果 
y 较 大 ， 那 么 必定 在 数组 的 后 半 部 分 。 
数组 一 定 是 有 序 的 。 这 个 函数 可 以 替代 程序 12.4 中 的 STsearch， 它 在 插入 的 过 程 中 ， 动 
态 地 保持 这 个 次 序 ， 或 者 我 们 可 以 包含 一 个 使 用 标准 排序 例 程 的 构造 (construct) 函数 。 


Item Search(int 1, int r, Key v) 
{ int m= (1+r)/2; 
if (1 > r) return NULLitem; 
if eq(v, keytst[m])) return st [m] ; 
if (1 == r) return NULLitem; 
if less(v，Key(st[m])) 
return Search(1，m-l，v) ; 
else return search(mt+1, r, Vv); 
} 
Item STsearch(Key v) 
{ return search(0, N-1, v); } 
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图 12-1 显 示 了 在 搜索 较 小 的 表 时 ， 二 分 搜索 算法 考察 的 子 文件 ， 图 12-2 描 述 了 一 个 更 大 的 





图 12-2 二 分 搜索 
注 : 使 用 二 分 搜索 ， 我 们 只 需要 7 次 选 代 就 找到 了 200 个 元 素 的 文件 中 的 一 个 记录 。 子 文件 大 小 形成 的 序列 是 
200、99、49、24、11、5、2、1。 每 个 子 文件 比 前 一 子 文件 的 一 半 精 微小 一 些 。 


性 质 12.5 在 一 火 搜索 中 (命中 或 失败 ) ， 二 分 搜索 使 用 不 超过 |1gNj+1 次 的 比较 。 

见 性 质 2.3。 注 意 到 在 大 小 为 N 的 表 中 进行 二 分 搜索 ， 所 使 用 的 最 大 比较 次 数 就 是 N 的 二 
进 制 表示 中 的 位 数 ， 因 为 向 右 移 1 位 的 操作 把 N 的 二 进 制 表示 转 换 成 LN/12j 的 二 进 制 表示 ( 见 
图 2-6)。 加 

像 在 插入 排序 时 那样 ， 保 持 表 有 序 就 会 导致 运行 时 间 为 “插入 ”操作 数 的 二 次 函数 的 ， 
但 如 果 “ 搜 索 ” 操 作 数 很 大 ， 这 个 开销 可 以 忍受 ， 其 至 可 以 忽略 。 在 一 般 情况 下 ， 所 有 的 数 
据 项 (甚至 是 大 量 的 数据 项 ) 在 查找 开始 时 就 可 用 ， 我 们 可 以 使 用 基于 第 6 章 至 第 10 章 的 标准 
排序 方法 的 构造 函数 对 表 进 行 排序 ， 之 后 ， 可 用 各 种 方法 对 表 进 行 更 新 。 例 如 ， 可 以 像 程序 
12.4 ( 见 练习 12.19) 所 示 ， 在 插入 过 程 中 保持 表 的 有 序 ， 或 者 进行 批 处 理 ， 排 序 再 归并 (如 
在 练习 8.1 中 所 讨论 的 那样 ) 。 任 何 更 新 都 可 能 涉及 比 表 中 数据 项 的 关键 字 更 小 的 关键 字 的 数 
据 项 ， 因 而 表 中 的 每 个 数据 项 必定 被 移动 以 腾空 位 置 。 这 种 由 于 对 表 进 行 更 新 的 高 额 开 销 是 
使 用 二 分 搜索 的 最 大 弱点 。 另 一 方面 ， 还 有 很 多 的 应 用 ， 其 中 可 以 预先 对 静态 表 排 序 ， 然 后 
使 用 程序 12.6 实 现 所 提供 的 快速 访问 ， 使 二 分 搜索 成 为 所 选 方法 。 

如 果 我 们 需要 动态 地 播 入 数据 项 ， 似 乎 我 们 需要 一 个 链表 结构 ， 但 是 单 链 表 的 实现 效率 
不 高 ， 因 为 二 分 搜索 的 效率 依赖 于 我 们 通过 索引 快速 获取 任何 子 数组 中 间 位 置 的 能 力 ， 而 得 
到 任何 单 链表 的 中 间 位 置 的 惟一 方法 是 沿 着 链接 得 到 。 要 把 二 分 搜索 的 效率 与 链表 结构 的 灵 
活性 结合 起 来 ， 需 要 更 复杂 的 数据 结构 ， 稍 后 就 会 讨论 到 。 

如 果 表 中 出 现 重 复 关键 字 ， 那 么 我 们 可 以 扩展 二 分 搜索 使 其 支持 用 于 计数 具有 给 定 关键 
字 的 数据 项 的 数目 的 符号 表 操 作 ， 或 者 作为 一 组 数 返 回 。 表 中 与 搜索 关键 字 相等 的 关键 字 所 
属 的 多 个 数据 项 构成 表 中 的 一 连续 块 〈 因 为 表 有 序 ) ， 用 程序 12.6 进 行 的 成 功 搜索 将 会 在 这 个 
块 的 某 个 地 方 结束 。 如 果 一 个 应 用 要 求 访问 所 有 这 样 的 数据 项 ， 我 们 可 以 添加 代码 ， 在 搜索 
终止 的 这 一 点 向 两 个 方向 进行 扫描 ， 并 返回 与 搜索 关键 字 相 等 的 关键 字 所 在 数据 项 的 下 标 边 
界 。 在 这 种 情况 下 ， 搜 索 的 运行 时 间 与 lg N 加 上 所 找到 的 数据 项 数 的 和 成 正比 。 类 似 的 方法 解 
决 了 更 一 般 的 范围 搜索 问题 ， 它 找 出 关键 字 落 入 一 特定 区 间 的 所 有 数据 项 。 我 们 将 在 第 6 部 分 
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扩展 这 个 方法 ， 并 应 用 到 符号 表 基 本 操作 集 上 。 

二 分 搜索 算法 所 进行 的 比较 序列 是 预先 确定 的 。 所 使 用 的 特定 序列 依赖 于 搜索 关键 字 的 
值 和 N 值 。 比 较 结构 可 用 一 棵 二 又 树 结构 描述 ， 如 图 12-3 所 示 。 这 棵 树 类 似 于 我 们 在 第 8 章 使 
用 的 用 于 描述 归并 排序 子 文件 大 小 的 树 (图 8-3)。 对 于 二 分 搜索 ， 我 们 取 了 一 条 人 贯穿 树 的 路 
径 ， 对 于 归并 排序 ， 我 们 取 了 贯穿 树 的 所 有 路 径 。 这 棵 树 是 静态 的 也 是 隐 含 的 ， 在 12.5 节 ， 
我 们 将 看 到 使 用 动态 、 显 式 构造 二 叉 树 结构 来 导航 搜索 过 程 的 算法 。 
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图 12-3 二 分 搜索 中 的 比较 序列 


注 : 这 些 分 治 法 的 树 图 描述 了 二 分 搜索 中 的 比较 索引 序列 。 模 式 只 依赖 于 初始 文件 大 小 ， 与 文件 中 的 关键 字 值 
无 关 。 它 们 与 妇 并 排序 和 类 似 算 法 所 对 应 的 罕有 些 不 同 (如 图 5-6 和 图 8-3)， 因 为 根 节 ,点 的 元 素 并 没有 和 包含 
在 子 树 中 。 
上 图 显示 了 如 何在 15 个 元 素 的 文件 (下 标 从 0 到 14) 中 进行 搜索 。 我 们 先 考虑 中 间 元 素 (下 标 7)。 如 
果 待 搜索 的 元 素 较 小 ， 再 (递归 ) 考虑 左 子 树 ; 如 果 待 搜索 的 元 素 较 大 ，( 递 归 ) 考虑 右 子 树 。 每 次 搜索 对 
应 树 中 一 条 从 上 到 下 的 路 径 。 例 如 ， 搜 索 落 入 元 素 10 和 11 之 间 的 一 个 元 素 ， 将 会 产生 序列 7、11、9、10。 
对 于 文件 大 小 不 是 比 2 的 需 少 1 的 情况 ， 该 模式 并 不 那么 有 规则 ， 如 下 图 对 12 个 元 素 的 描述 。 
二 分 搜索 的 一 种 改进 方法 是 更 精确 地 猜测 搜索 的 关键 字 将 落 入 当前 区 闻 的 什么 位 置 (而 
不 是 在 每 一 步 中 这 目地 把 它 与 中 间 元 素 进 行 测 试 ) 。 这 种 策略 模仿 了 我 们 在 电话 夭 中 查找 一 个 
名 字 或 在 字典 中 查找 一 个 单词 所 使 用 的 方法 : 如 果 我 们 正 搜索 的 某 项 它 的 开头 字母 在 字母 表 
的 开始 ， 我 们 就 在 那 本 书 的 开始 搜索 ， 但 如 果 它 的 开头 字母 在 字母 表 的 末尾 ， 我 们 就 在 那 本 
书 的 末尾 搜索 。 这 种 方法 称 为 插值 搜索 ， 要 实现 这 种 方法 ， 我 们 需要 修改 程序 12.6， 用 语句 
m= 1+{(v—- key(a[i])) ( (r-l1)/(key(a[lr]) - key(a[1])); 
代替 语句 


m= (1+r)/2; 
为 了 证 明 这 个 修改 的 正确 性 ， 我 们 注意 到 (1+7)/2 是 1+ 了 (一) 的 简写 ， 我 们 把 区 间 大 小 的 


一 半 加 到 左 端 点 上 ， 来 计算 区 间 的 中 点 。 使 用 插值 搜索 可 以 用 对 关键 字 所 在 位 置 的 估 值 
Gy 一 Vk, 一 ki)， 代 替 公 式 中 的 1/2， 其 中 ，k, 分 别 表示 关键 字 key(a[1]) 和 关键 字 key(a[r]) 
的 值 ， 这 一 计算 是 根据 假设 ， 关键 字 的 值 是 数值 型 的 且 均 匀 分 布 得 到 的 。 

对 于 随机 关键 字 的 文件 ， 播 值 搜索 表明 对 于 一 次 搜索 〈 命 中 或 失败 ) ， 使 用 的 比较 次 数 少 
于 lg lgN+1。 证 明 过 程 超出 了 本 书 的 范围 。 该 函数 增长 缓慢 ， 在 实际 中 ， 可 看 作 常量 : 如 果 N 
为 10 亿 ，lg lg N < 5。 因 此 ， 我 们 可 以 找到 (平均 ) 只 需 几 次 访问 的 数据 项 ， 这 对 于 二 分 搜索 
是 一 个 巨大 的 改进 。 对 于 比 随机 分 布 更 为 常规 分 布 的 关键 字 ， 插 值 搜索 的 性 能 甚至 更 好 。 实 
际 上 ， 有 限 的 情况 是 12.2 节 中 描述 的 基于 关键 字 索 引 的 搜索 方法 。 
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然而 ， 插 值 搜索 对 假设 依赖 性 很 大 ， 要 求 关键 字 在 区 间 上 分 布 的 很 好 。 对 于 分 布 较 差 的 
情况 ， 它 表现 也 很 差 ， 这 是 实际 中 经 常 出 现 的 情况 。 同 时 ， 它 还 要 求 额 外 计算 。 对 于 较 小 的 N， 
直接 进行 二 分 搜索 的 开销 lg N 近 似 于 插值 搜索 的 开销 lg lg N， 选 择 插值 搜索 就 不 值得 了 。 另 一 
方面 ， 对 于 比较 操作 代价 很 高 的 应 用 ， 以 及 涉及 较 大 访问 开销 的 外 部 方法 ， 处 理 大 型 文件 肯 
定 考虑 插值 搜索 。 
练习 

> 12.32 ”实现 一 个 非 递归 的 二 分 搜索 函数 ( 见 程序 12.6)。 

12.33 对 于 N = 17 和 N= 24， 画 出 对 应 图 12-3 的 树 。 

5 12.34 在 大 小 为 N 的 符号 表 中 进行 二 分 搜索 , 找 出 比 顺序 搜索 快 10 倍 、100 倍 和 1000 倍 的 N 值 。 
通过 分 析 预 测 N 的 值 ， 并 用 实验 进行 验证 。 

12.35 假设 在 大 小 为 N 的 动态 符号 表 中 进行 插入 ， 实 现时 使 用 插入 排序 方法 ， 但 使 用 二 分 搜 
索 进行 搜索 。 假 设 “ 搜 索 ” 操 作 是 “插入 ”操作 的 1000 倍 。 估 计 总 时 间 中 “插入 ”操作 所 占 
的 百分比 ， 其 中 N = 10?，10*，10 和 105。 

12.36 使 用 二 分 搜索 和 支持 初始 化 、 计 数 、 搜 索 、 插 入 和 排序 操作 的 懒 插入 法 ， 开 发 一 个 符 
号 表 的 实现 。 使 用 以 下 策略 : 主 符号 表 用 一 个 大 的 有 序数 组 ， 最 近 插入 的 数据 项 用 一 个 无 序 
数组 。 当 调用 STsearch 时 ， 对 最 近 插 入 的 数据 项 (如 果 存 在 ) 进行 排序 ， 并 把 它们 归并 进 主 
符号 表 中 ， 再 使 用 二 分 搜索 。 

12.37 在 练习 12.36 的 实现 中 ， 增 加 一 个 懒 删除 操作 。 

12.38 ”对 于 练习 12.36 的 实现 ， 回 答 练 习 12.35 的 问题 。 

012.39 ”实现 类 似 于 二 分 搜索 (程序 12.6) 的 一 个 函数 ， 它 返回 符号 表 中 等 于 给 定 关键 字 的 数 
据 项 的 数目 。 

212.40 ”给 定 N 值 ， 编 写 一 个 程序 ， 产 生 形 如 compare(1，h) 的 N 条 宏 指 令 的 一 个 序列 ， 索 引 从 
0 到 N-1， 其 中 表 中 的 第 ;条 指令 的 意思 是 “将 搜索 关键 字 与 表 中 索引 i 处 的 值 进行 比较 。 如 果 
相等 ， 报 告 搜索 命中 ， 如 果 小 于 ， 接 着 执行 第 /条 指令 ， 如 果 大 于 ， 接 着 执行 第 h 条 指令 ”( 索 
引 0 用 于 指示 搜索 失败 ) 。 这 个 序列 具有 性 质 : 对 于 相同 的 数据 ， 任 何 搜索 都 会 像 二 分 搜索 一 
样 进 行 同 样 的 比较 。 

“12.41 开发 练习 12.40 宏 的 一 个 扩展 ， 满 足 程序 产生 机 器 代码 可 以 在 大 小 为 N 的 表 中 进行 二 分 
搜索 ， 每 次 比较 需要 尽 可 能 少 的 机 器 指令 。 

12.42 对 于 1~N 之 间 的 1， 假设 a[11]==10*i。 在 对 2k 一 1 次 失败 搜索 中 ， 使 用 插值 搜索 需要 检 
查 多 少 个 表 中 的 位 置 ? 

“12.43 在 大 小 为 N 的 符号 表 中 进行 插值 搜索 ， 找 出 比 二 分 搜索 快 1 倍 、2 倍 和 10 倍 的 N 值 。 假 

设 关键 字 是 随机 的 。 通 过 分 析 预 测 N 的 值 ， 并 用 实验 进行 验证 。 


12.5 二 叉 搜索 树 


为 了 克服 “插入 ”操作 开销 过 高 的 问题 ， 我 们 将 使 用 一 种 显 式 树 结构 ， 作 为 实现 符号 表 的 
基础 。 这 种 基本 数据 结构 允许 我 们 开发 出 针对 搜索 、 插 入 、 选 择 和 排序 这 些 符 号 表 操 作 的 快 
速 且 性 能 中 等 的 算法 。 它 是 很 多 应 用 问题 选择 的 方法 ， 也 是 计算 机 科学 中 最 基本 的 算法 之 一 。 

我 们 在 第 5 章 以 一 定 的 篇 幅 讨 论 了 树 ， 但 在 此 回顾 一 下 树 的 术语 将 会 是 有 用 的 。 数 据 结构 
由 节点 组 成 ， 节 点 中 包含 了 指向 其 他 节点 的 链接 ， 或 指向 外 部 节点 的 链接 ， 外 部 节点 不 含 链 
按 域 。 在 一 棵 (有 根 ) 树 中 ， 我 们 限制 每 个 节点 只 能 指向 一 个 其 他 节点 ， 这 个 节点 称 为 它 的 
父 节 点 。 在 二 又 树 中 ， 我 们 进一步 限制 ， 每 个 节点 只 有 两 个 链接 ， 称 为 它 的 左 链接 和 右 链接 。 
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有 两 个 链接 的 节点 也 称 为 内 部 节点 。 对 于 搜索 ， 每 个 内 部 节点 还 有 一 个 带 有 关键 字 值 的 数据 


项 ， 我 们 把 指向 外 部 节点 的 链接 称 为 空 链 接 。 内 部 节点 中 的 关键 字 值 与 搜索 关键 字 进 行 比较 ， 
并 控制 着 搜索 的 过 程 。 

定义 12.2 二 叉 搜 索 树 (binary search tree, BST) 是 一 棵 二 又 树 ， 它 的 每 个 内 部 节点 都 关 
联 一 个 关键 字 ， 并 具有 以 下 性 质 : 任意 节点 的 关键 字 大 于 (或 等 于 ) 该 节点 左 子 树 中 所 有 节 
点 的 关键 字 ， 小 于 (或 等 于 ) 该 节点 右 子 树 中 所 有 节点 的 关键 字 。 

程序 12.7 使 用 BST 实 现 符号 表 的 搜索 、 播 入 、 初 始 化 和 计数 操作 。 实 现 的 前 一 部 分 定义 了 
BST 中 的 节点 ， 每 个 节点 包含 一 个 带 有 关键 字 的 数据 项 、 一 个 左 链接 和 一 个 右 链接 。 代 码 还 
维持 存放 树 中 节点 个 数 的 一 个 域 ， 用 于 支持 计数 的 积极 实现 。 


.程序 12.7， 基 于 BST 的 符号 表 


这 个 实 加 中 的 STsesreh 和 和 STinsert 胃 数 使 用 讨 维 数 searehR 和 nserti 两 个 
压缩 递归 函数 直接 反映 了 BST 的 递归 定义 〈 见 正文 )。 链 接 head 指 向 树 的 根 节点 ， 尾 节点 〈z) 
用 于 表示 空 树 。 

#include <stdlib.h> 

#include "Item.h" 

typedef struct STnode* link; 

struct STnode { Item item; link 1, r; int N; }; 

static link head, Zz; 

link NEW(Item item, link 1, link r, int N) 

{ link x = malloc(sizeof *x); 
x->item = item; X->1 = 1]; x->r = r; x->N = N; 
return Xi 

} 

void STinit() 

{ head = (z = NEW(NULLitem, 0, 0, 0)); } 
int STcount() {.return head->N; } 

Item searchR(link h, Key v) 

{ Key t = key(h->item); 
if (hnh == 2) return NULLitem; 
if eq(v, t) return h~>itenm; 
if less(v, t) return searchR(h->1, Vv); 
else return searchR(h->r, Vv); 
} 
Item STsearch(Key v) 
{ return searchR(head, v); } 

link insertR(link h, Item item) 

{ Key v = key(item), t = Xey(h->item) ; 
if (h == 2) return NEW(item, 2z, 2z, 1); 
if less(v, t) 

h->1 = insertR(h->1, item); 

else h->r = insertR(h->r, item); 
(h->N)++; return hi; 

} 

void STinsert (Item item) 
{ head = insertR(head, item); } 


给 定 这 个 结构 ， 在 BST 上 搜索 关键 字 的 递归 算法 满足 如 下 特性 ， 如 果树 为 空 ， 则 搜索 失 
败 ， 如 果 搜 索 关 键 字 等 于 根 节 点 的 关键 字 ， 则 搜索 命中 。 否 则 ， 递 归 地 搜索 相应 的 子 树 。 程 
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序 12.7 中 的 searchR 函 数 直 接 实现 了 这 个 算法 。 我 们 调用 递归 例 程 ， 它 以 树 作为 第 一 个 参数 ， 
关键 字 作 为 第 二 个 参数 ， 并 使 用 树 根 (链接 作为 局 部 变量 维持 ) 和 搜索 关键 字 。 在 每 步 中 ， 
我 们 保证 除了 当前 子 树 ， 树 的 其 他 部 分 不 包括 具有 搜索 关键 字 的 数据 项 。 正 如 二 分 搜索 在 每 
次 迭代 中 ， 其 区 间 大 小 不 断 收缩 一 半 一 样 ， 二 又 搜索 树 的 当前 子 树 小 于 上 一 次 的 子 树 (理想 
情况 下 ， 约 为 上 次 的 一 半 )。 找 到 具有 搜索 关键 字 的 数据 项 时 (搜索 命中 ) 或 者 当前 子 树 变 为 
空 搜索 失败 ) 时 ， 这 个 过 程 停止。 

图 12-4 的 上 图 描述 了 一 棵 样本 树 的 搜索 过 程 。 从 上 图 开始 ， 在 每 个 节点 上 的 搜索 过 程 都 
会 递归 调用 它 的 一 个 子 节点 ， 因 而 搜索 定义 了 一 条 贯穿 树 的 路 径 。 对 于 搜索 命中 的 情况 ， 路 
径 终止 于 包含 关键 字 的 一 个 节点 。 对 于 搜索 失败 的 情况 ， 路 径 终 止 于 一 个 外 部 节点 ， 如 图 12-4 
的 中 图 所 示 。 





图 12-4 BST 的 搜索 和 插入 
注 : 通过 这 棵 样本 树 (上 图 ) 成 功 搜 索 晶 的 过 程 中 ， 我 们 从 根 节点 移 到 右 子 树 (因为 昌 大 于 A)， 然 后 从 右 子 树 的 
根 节点 移 到 它 的 左 子 树 (因为 再 小于 S) ， 以 此 类 推 ， 向 着 树 的 下 方 继续 这 一 过 程 ， 直 到 遇 到 H。 通 过 这 棵 样本 
树 (中 图 ) 进行 不 成 功 搜索 M 的 过 程 中 ， 我 们 从 根 节点 移 到 右 子 树 (因为 M 大 于 A)， 然 后 从 右 子 树 的 根 节点 
移 到 它 的 左 子 树 〈 国 为 M 小 于 S) ， 以 此 类 推 ， 向 着 树 的 下 方 继续 这 一 过 程 ， 直 到 在 树 的 底部 遇 到 N 的 上 左 链接 的 
一 个 外 部 链接 为 止 。 在 搜索 失败 后 要 插入 M， 我 们 简单 地 用 指向 M ( 树 底 ) 的 链接 代替 终止 搜索 的 链接 即 可 。 
在 程序 12.7 中 ，BST 使 用 一 个 哑 节 点 z 来 表示 外 部 节点 ， 而 没有 显 式 使 用 NULL 指 针 。 指 向 z 
的 链接 都 是 空 链接 。 这 个 约定 简化 了 我 们 所 考虑 的 某 些 复杂 的 树 处 理 函 数 的 实现 。 在 用 BST 
实现 一 个 一 级 符号 表 ADT 时 ， 我 们 还 使 用 哑 节 点 head 来 提供 句柄 。 然 而 ， 在 这 个 实现 中 ， 
head 只 是 一 个 指向 BST 的 链接 。 初 始 时 ， 为 了 表示 一 个 空 BST， 我 们 设置 head 指 向 z。 
程序 12.7 中 的 搜索 函数 就 像 二 分 搜索 一 样 简单 。BST 的 一 个 基本 特征 是 播 和 人 实现 就 像 搜 索 
实现 一 样 简单 。 递 归 函 数 insertR 把 一 个 新 的 数据 项 插入 到 BST 的 过 程 类 似 于 我 们 开发 
searchR 使 用 的 方法 ， 如 果树 为 空 ， 我 们 返回 包含 数据 项 的 一 个 新 节点 ， 如 果 搜 索 关 键 字 小 于 
根 节点 的 关键 字 ， 把 包含 搜索 关键 字 的 节点 播 人 到 左 子 树 ， 并 使 堪 链接 指向 它 ， 否 则 把 它 插 
入 到 右 子 树 ， 并 使 右 链 接 指向 它 。 对 于 我 们 考虑 的 简单 BST， 在 递归 调用 之 后 通常 不 需要 重 
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新 设置 链接 指向 ， 因 为 仅 在 链接 为 空 时 ， 链 接 才 会 改变 。 但 是 设置 链接 和 测试 避免 设置 链接 
一 样 简单 。 在 12.8 节 和 第 13 章 中 ， 我 们 将 学 习 更 多 的 高 级 树 结构 ， 它 们 很 自然 地 使 用 同样 的 
递归 模式 表示 ， 因 为 它们 按照 向 下 的 方式 改变 子 树 ， 然 后 在 递归 调用 之 后 重新 设置 链接 指向 。 

图 12-5 和 图 12-6 显 示 了 通过 向 初始 为 空 的 树 中 插入 一 个 关键 字 序 列 , 构造 一 棵 BST 的 过 程 。 
新 的 节点 连接 到 树 底部 的 空 链 接 上 ， 但 树 结 构 不 会 因此 改变 。 因 为 每 个 节点 有 两 个 链接 ， 树 
倾向 于 向 外 增长 ， 而 不 是 向 下 增长 。 


QO 





图 12-5 BST 的 构造 图 12-6 BST 的 构造 ( 续 ) 
注 : 这 个 序列 描述 了 把 关键 字 ASERCHIN 插 入 初始 ” 注 : 这 个 序列 描述 了 把 关键 字 G X MP 工 桥 入 到 图 12-5 
为 空 的 BST 中 的 结果 。 每 次 插入 都 在 树 底 的 一 次 搜 的 BST 的 过 程 。 
索 失 败 之 后 。 


使 用 BST 时 ， 不 需要 太 多 额外 工作 就 能 使 用 符号 表 的 排序 函数 。 构 造 二 又 搜索 树 可 以 归 
为 对 数据 项 排序 ， 因 为 当 我 们 按照 一 定 方式 看 二 又 搜索 树 时 ， 它 表示 一 个 有 序 的 文件 。 在 我 
们 的 图 中 ， 如 果 从 左 到 右 读 取 页 面 上 的 关键 字 (忽略 掉 它们 的 高 度 和 链接 )， 关 键 字 的 出 现 是 
有 序 的 。 一 个 程序 仅 包 含 用 于 排序 的 链接 ， 因 为 根据 定义 ， 一 个 简单 中 序 遍 历 就 能 决定 顺序 ， 
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如 程序 12.8 的 递归 实现 sortR 所 显示 的 那样 。 为 了 按照 关键 字 的 顺序 访问 BST 中 的 数据 项 ， 我 
们 首先 按照 关键 字 顺 序 (递归 ) 访问 左 子 树 中 的 数据 项 ， 接 着 访问 根 节点 ， 然 后 按照 关键 字 
顺序 (递归 ) 访问 右 子 树 中 的 数据 项 。 这 个 虚构 的 简单 实现 是 一 个 经 典 且 重 要 的 递归 程序 。 


程序 12.8 使 用 BST 排 序 ， 
对 BST 的 中 序 遍 历 按照 关键 字 的 顺序 访问 数据 项 。 在 这 个 实现 中 ， visit 是 一 个 客户 端 所 
供 的 函数 ， 按 照 关键 字 的 顺序 ， 该 函数 以 数据 项 作为 参数 被 调用 。 
void sortR(link h, void (*visit) (Item)) 
{ 
if (h == 2z) return; 
sortR(h->1, visit); 
visit(h~>item); 
sortR(h->r, visit); 
} 
void STsort (void (*visit) (Item)) 
{ sortR(head, visit); } 


非 递 归 地 考虑 BST 中 的 搜索 和 插入 也 是 有 益 的 。 在 一 个 非 递归 的 实现 中 ， 搜 索 过 程 由 一 
个 循环 组 成 ， 首 先 比较 搜索 关键 字 与 根 节 点 的 关键 字 ， 如 果 搜 索 关 键 字 较 小 ， 则 移 向 左 子 树 ， 
否则 移 向 右 子 树 。 在 搜索 失败 后 进行 插 人 (搜索 结束 在 空 链 接 处 ) ， 用 指向 新 节点 的 链接 替代 
空 链接 。 这 个 过 程 对 应 着 沿 着 树 中 向 下 的 路 径 操 纵 链接 的 过 程 ( 见 图 12-4)。 特 别 是 ， 为 了 能 
把 一 个 新 节点 插入 到 树 的 底部 ， 像 在 程序 12.9 中 的 实现 那样 ， 我 们 需要 维持 指向 当前 节点 的 
父 节 点 的 链接 。 通 常 ， 递 归 版 本 和 非 递 归 版 本 是 等 价 的 ， 但 是 从 不 同 角 度 理 解 它们 可 以 增强 
对 于 算法 和 数据 结构 的 认识 


程序 12.9 在 BST 上 的 插入 ( 非 递归 ) 操作 


把 一 个 数据 项 插入 到 BST 中 ， 等 价 于 先 执行 一 次 不 成 功 搜索 ， 然 后 为 数据 项 追加 一 个 新 
节点 ， 代 替 搜 索 结 束 地 方 的 空 链接 。 追加 新 节点 要 求 我 们 在 树 中 向 下 处 理 的 过 程 中 ， 记 录 当 
前 节点 x 的 父 节 点 p。 当 到 达 树 的 底部 时 ， 我 们 必须 把 p 指 向 节点 的 链接 域 ， 改 为 指向 新 插入 的 

void STinsert (Item item) 

{ Key.v = key(item); link p = head, x = p; 
if (head == NULL) 
{ head = NEW(item, NULL, NULL, 1); return; } 
while (x != NULL) 
{ 
Pp = XxX; x->N++; 
XxX = less(v, key(x->item)) ? x->1 : x->r; 
} 
x = NEW(item, NULL, NULL, 1); 
if (less(v, key(p-~>item))) p->1 = Xi 
else p->r = Xi 


} 


程序 12.7 中 的 BST 子 数 并 没有 显示 地 检查 具有 重复 关键 字 的 数据 项 。 当 插入 一 个 关键 字 等 
于 树 中 已 有 关键 字 的 新 节点 时 ， 新 节点 就 落 入 树 中 已 存在 节点 的 右边 。 这 种 约定 的 一 个 副 作 
用 是 具有 重复 关键 字 的 节点 在 树 中 出 现 并 不 连续 ( 见 图 12-7)。 然 而 ， 我 们 可 以 从 STsearch 找 
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到 的 第 一 个 匹配 点 继续 搜索 来 找 出 它们 ， 直 到 遇 到 z。 还 有 几 种 处 理 具有 重复 关键 字 的 数据 项 
的 方法 ， 如 在 9.1 节 提 到 的 那样 。 





图 12-7 BST 中 的 重复 关键 字 


注 : 当 一 个 BST 中 包含 带 有 重复 关键 字 的 记录 时 (上 图 )， 它们 散布 在 树 中 ， 如 图 中 描述 的 突出 显示 的 A。 重 复 
关键 字 出 现在 从 根 到 外 部 节点 的 搜索 关键 字 的 路 径 上 ， 因 而 可 以 容易 地 访问 到 它们 。 然 而 ， 为 了 避免 一 些 
用 法 上 的 混淆 ， 如 “A 在 C 下 ”， 在 我 们 的 例子 中 (下 图 ) 使 用 不 同 的 关键 字 。 


BST 对 于 快速 排序 具有 双重 作用 。 树 的 根 节点 对 应 快速 排序 中 的 划分 元 素 (左边 的 关键 
字 都 不 大 于 根 节点 的 关键 字 ， 右 边 的 关键 字 都 不 小 于 根 节点 的 关键 字 )。 在 12.6 节 中 ， 我 们 将 
会 看 到 这 一 观察 与 树 的 性 质 分 析 之 间 的 关系 。 
练习 
>12.44 ”按照 给 出 的 顺序 ， 将 关键 字 E A SY QU TI10O N 插 入 到 初始 为 空 的 树 中 ， 画 出 桂 入 后 
的 结果 。 
>12.45 ”按照 给 出 的 顺序 ， 将 关键 字 E A SY Q UE STIO N 持 入 到 初始 为 空 的 树 中 ， 画 出 插 
入 后 的 结果 。 
>12.46 ”给 出 使 用 BST 把 关键 字 E A SY QUESTIO N 放 入 初始 为 空 的 符号 表 中 所 需要 的 比 
较 次 数 。 假 设 对 每 个 关键 字 进 行 一 次 搜索 操作 ， 并 在 每 次 搜索 失败 后 接着 执行 一 次 插入 操作 ， 
如 程序 12.2 所 示 。 
o12.47 ”按照 顺序 把 关键 字 A S E R H IN G 插 入 到 初始 为 空 的 树 中 ， 得 到 图 12-6 中 上 面 的 树 。 
给 出 产生 这 些 关 键 字 的 同样 结果 的 其 他 10 种 顺序 。 
12.48 ”实现 二 又 搜索 树 的 STsearchinsert 函 数 (程序 12.7)。 在 符号 表 中 搜索 与 给 定数 据 项 
具有 相同 关键 字 的 数据 项 ， 如 果 搜 索 失 败 ， 则 将 给 定数 据 项 插入 到 符号 表 中 。 
>12.49 ”编写 一 个 函数 ， 返 回 BST 中 具有 与 给 定 关键 字 相 等 的 关键 字 的 数据 项 个 数 。 
12.50 ”假设 我 们 预先 估计 出 在 一 棵 二 又 树 中 搜索 关键 字 需 要 访问 的 次 数 。 那 么 应 该 按照 关键 
字 访 问 的 递增 还 是 递减 次 数 ， 把 关键 字 插 入 到 树 中 呢 ? 解 释 你 的 答案 。 
12.51 ”修改 程序 12.7 的 BST 实 现 ， 把 带 有 重复 关键 字 的 数据 项 保存 在 链表 中 ， 链 表 挂 接 在 树 
节点 上 。 改 变 接口 使 得 搜索 操作 像 排 序 操作 一 样 (对 于 所 有 具有 搜索 关键 字 的 数据 项 )。 
12.52 ”程序 12.9 的 非 递 归 插 入 过 程 使 用 一 次 宛 余 比较 来 决定 用 新 节点 代替 p 的 哪个 链接 。 给 
出 一 种 使 用 指向 链接 的 指针 实现 来 避免 这 个 元 余 比 较 。 
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12.6 BST 的 性 能 特征 


算法 在 二 又 搜索 树 上 的 运行 时 间 与 树 的 形状 无 关 。 在 树 是 完美 平衡 的 最 好 情况 下 ， 在 根 
节点 和 每 个 外 部 节点 之 间 大 约 有 lg N 个 节点 ， 但 在 最 坏 情况 下 ， 搜 索 路 径 上 会 有 N 个 节点 。 

我 们 可 能 期 望 平均 情况 下 ， 搜 索 时 间 也 是 对 数 时 间 ， 因 为 插入 的 第 一 个 元 素 变 成 树 的 根 
节点 : 如 果 随 机 插入 N 个 关键 字 ， 那 么 这 个 元 素 就 把 关键 字 分 为 两 半 (平均 ) ， 这 将 产生 对 数 
搜索 时 间 (对 子 树 进行 同样 的 论述 )。 实 际 上 ，BST 上 可 以 得 到 和 二 又 搜索 完全 一 样 的 比较 次 
数 ( 见 练习 12.55)。 这 种 情况 是 算法 的 最 好 情况 ， 它 保证 了 任何 搜索 的 时 间 为 对 数 时 间 。 但 
在 真正 随机 的 情况 下 ,任何 关键 字 成 为 树 的 根 节点 的 几率 是 一 样 ， 在 每 次 插入 之 后 ， 我 们 不 
可 能 很 容易 地 保证 树 是 完美 平衡 的 。 然 而 ， 对 于 随机 关键 字 ， 高 度 不 平衡 的 树 也 很 少 出 现 。 
因而 ， 平 均 情况 下 ， 树 是 相当 平衡 的 。 在 这 一 节 里 ， 我 们 将 量化 这 一 观察 。 

更 明确 地 说 ， 我 们 在 5.5 节 分 析 的 二 又 树 的 路 径 长 度 和 高 度 直 接 与 在 BST 中 的 搜索 开销 有 
关 。 高 度 是 最 坏 情况 下 一 次 搜索 的 开销 ， 内 部 路 径 长 度 直接 与 搜索 命中 的 开销 有 关 ， 外 部 路 
径 长 度 直接 与 搜索 失败 的 开销 有 关 。 

性 质 12.6 对 于 NN 个 随机 关键 字 所 构造 的 BST， 搜 索 命中 平均 需要 大 约 2 ln N= 1.39 lg N 次 
比较 。 
像 在 12.3 节 中 所 讨论 的 情况 一 样 ， 我 们 把 连续 eq 和 连续 1ess 操 作 看 作 一 次 比较 。 搜 索 命 
中 结束 在 一 给 定 节点 所 用 的 比较 次 数 为 1 加 上 从 该 节点 到 跟 节 点 的 距离 。 把 所 有 节点 的 距离 加 
起 来 ， 我 们 得 到 这 棵 树 的 内 部 路 径 长 度 。 因 此 ， 搜 索 命 中 的 比较 次 数 为 1 加 上 BST 的 平均 内 部 
路 径 长 度 ， 用 类 似 的 论证 过 程 我 们 可 以 对 它 进行 分 析 : 如 果 Cw 表示 NN 个 节点 构成 的 二 又 搜 索 
树 的 平均 内 部 路 径 长 度 ， 我 们 可 得 递 推 公式 

cv=N-I+ 工 BC+ Cy), 
其 中 Cl = 1。N 一 1 考虑 了 根 节点 对 其 他 N 一 1 个 节点 的 每 个 节点 路 径 长 度 贡献 为 1!1， 表 达 式 的 其 
余 项 可 由 观察 得 到 : 根 节点 的 关键 字 (第 一 个 插入 的 关键 字 ) 成 为 第 k 个 最 小 关键 字 几 率 相同 ， 
且 把 树 随机 分 成 大 小 为 一 1 和 NN 一 k 的 子 树 。 这 个 弟 推 式 与 我 们 在 第 7 章 求解 快速 排序 的 递归 式 
几乎 相同 。 我 们 可 用 同样 的 方法 求解 这 个 递归 式 ， 导 出 陈述 的 结论 。 图 

性 质 12.7 对 于 N 个 随机 关键 字 所 构造 的 BST， 插 入 和 搜索 失败 平均 需要 大 约 2 In N ~ 1.39 
lg N 次 比较 。 

在 一 棵 NN 个 节点 构成 的 树 中 搜索 一 个 随机 关键 字 的 几率 与 结束 在 N+1 个 外 部 节点 中 的 任何 
一 个 节点 处 的 搜索 失败 几率 相同 。 这 个 性 质 与 事实 相符 : 任何 树 中 的 外 部 路 径 长 度 和 内 部 路 
径 长 度 之 差 恰 好 为 2V ( 见 性 质 5.7)， 可 以 确定 所 陈述 的 结论 。 在 任何 一 棵 BST 中 ， 插 入 或 搜 
索 失 败 的 平均 比较 次 数 大 约 比 一 次 搜索 命中 的 比较 次 数 多 1。 国 

性 质 12.6 阐 明 我 们 可 以 期 望 BST 的 搜索 开销 比 随机 关键 字 的 二 分 搜索 次 数 大 约 高 39% ， 但 
性 质 12.7 阐 明 这 种 额外 开销 是 值得 的 ， 因 为 播 和 人 一 个 新 的 关键 字 大 约 也 是 这 个 开销 ， 而 二 分 
搜索 没有 这 个 灵活 性 。 图 12-8 显 示 了 由 一 个 大 的 随机 排列 所 构造 的 一 棵 BST。 虽 然 树 中 有 些 长 
路 径 ， 有 些 短路 径 ， 我 们 也 可 以 把 它 表征 为 平衡 的 任何 搜索 需要 比较 次 数 少 于 12， 一 次 随 
机 搜索 命中 的 平均 比较 次 数 为 706， 而 二 分 搜索 的 平均 比较 次 数 为 5.55。 

性 质 12.6 和 性 质 12.7 的 结论 是 平均 情况 下 的 结果 ， 它 依赖 于 随机 排序 的 关键 字 。 如 果 关 键 
字 不 是 随机 有 序 的 ， 算 法 的 性 能 可 能 更 差 。 
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图 12-8 二 又 搜索 树 示 例 
注 : 在 把 大 约 200 个 随机 关键 字 插 入 到 初始 为 空 的 树 中 所 构造 的 这 棵 BST 中 ， 搜 索 都 不 超过 12 次 比较 。 一 次 搜索 
命中 的 平均 开销 约 为 7。 

性 质 12.8 在 最 坏 情 况 下 ， 对 有 N 个 关键 字 的 二 又 搜索 树 进行 一 次 搜索 可 能 需要 N 次 比较 。 

图 12-9 和 图 12-10 描 述 了 最 坏 情 况 BST 的 两 个 例子 ， 对 于 这 些 树 ， 二 又 树 的 搜索 不 会 比 使 
用 单 链表 的 顺序 搜索 更 好 。 图 

因此 ， 对 于 符号 表 的 基本 BST 的 实现 来 说 ， 其 良好 性 能 依赖 于 关键 字 要 有 足够 的 随机 性 ， 
使 得 树 不 太 可 能 含有 多 条 长 的 路 径 。 此 外 ， 这 种 最 坏 情 况 下 的 行为 在 实际 中 不 太 可 能 出 现 。 
只 有 在 使 用 标准 算法 ， 当 插 和 人 的 关键 字 按 照 升 序 或 逆序 插 和 人 到 初始 为 空 的 树 中 时 才 会 出 现 这 
种 情况 。 而 我 们 必定 尝试 的 操作 序列 没有 任何 显 式 的 警告 来 避免 这 种 情况 。 在 第 13 章 中 ， 我 
们 将 分 析 使 这 种 最 坏 情 况 不 可 能 出 现 并 完全 消除 这 种 情况 的 技术 ， 使 得 所 有 树 更 像 最 好 情况 
的 树 ， 保 证 所 有 路 径 长 度 为 对 数 长 度 。 

在 我 们 所 讨论 的 符号 表 的 实现 方法 中 ， 没 有 一 种 能 够 完成 把 大 量 随机 关键 字 插 入 到 表 中 ， 
然后 再 搜索 它们 的 任务 。 在 12.2 节 至 12.4 节 讨论 的 每 种 方法 完成 这 一 任务 的 运行 时 间 都 需要 二 
次 时 间 。 此 外 ,分 析 表 明 二 又 树 中 距 一 个 节点 的 平均 距离 是 树 中 节点 个 数 的 对 数 函 数 ， 这 使 
我 们 可 以 灵活 高 效 地 处 理 混合 搜索 、 插 入 和 其 他 符号 表 ADT 的 操作 。 我 们 很 快 就 会 看 到 。 
练习 
=12.53 ”编写 一 个 递归 程序 ， 计 算 在 一 棵 给 定 ( 树 的 高 度 ) 的 BST 中 进行 搜索 所 需要 的 最 大 比 
较 次 数 。 

12.54 ”编写 一 个 递归 程序 ， 计 算 在 一 棵 给 定 的 BST 中 搜索 命中 所 需要 的 平均 比较 次 数 ( 树 的 
内 部 路 径 长 度 除 以 N) 。 

12.55 ”给 出 一 种 把 关键 字 A SY QU ES 了 TION 插入 到 初始 为 空 的 BST 中 的 插入 序列 ， 要 
求 在 BST 中 搜索 任 一 关键 字 所 形成 的 比较 序列 与 在 二 分 搜索 中 搜索 同一 关键 字 所 使 用 的 比较 
序列 相同 。 

co12.56 编写 一 个 程序 ， 把 关键 字 集 插入 到 初始 为 空 的 BST 中 ， 满 足 所 形成 的 树 等 价 于 二 分 搜 
索 ， 含 义 与 练习 12.55 中 所 描述 的 相同 。 

12.57 ”把 N 个 关键 字 插 入 到 初始 为 空 的 树 中 ， 画 出 所 有 结构 上 不 同 的 BST, 2<N<5。 
。12.58 ”把 N 个 随机 不 同 的 元 素 插入 到 初始 为 空 的 树 中 得 到 的 所 有 树 (练习 12.57)， 求 出 每 棵 
树 的 概率 。 

。12.59 ”高 度 为 N 的 N 个 节点 的 二 叉 树 有 多 少 棵 ?把 N 个 不 同 关键 字 插 入 到 初始 为 空 的 树 中 得 到 
高 度 为 N 的 BST 有 多 少 种 方法 ? 

o12.60 ”用 归纳 法 证 明 在 一 棵 二 又 树 中 ， 外 部 路 径 长 度 和 内 部 路 径 长 度 之 差 为 2N ( 见 性 质 5.7)。 
12.61 通过 实验 研究 ， 把 N 个 随机 关键 字 插 入 到 初始 为 空 的 树 中 构造 一 棵 二 又 搜索 树 ， 计 算 
在 这 棵 树 中 搜索 命中 和 搜索 失败 所 用 的 比较 次 数 的 平均 值 和 标准 差 ， 其 中 N = 107，10*，105 
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图 12-9 最 坏 情 况 的 BST 图 12-10 另 一 种 最 坏 情况 的 BST 
注 : 如 果 关 键 字 按 照 递增 的 顺序 加 入 到 BST 中 ， 它 就 退 “” 注 : 关键 字 的 插入 次 序 很 多 。 图 中 显示 的 次 序 导 致 了 
化 为 单 链表 的 样子 ， 从 而 导致 2 次 的 树 构造 时 间 和 退化 的 BST。 然 而 ， 由 随机 有 序 的 关键 字 所 构造 的 
线性 搜索 时 间 。 BST 却 可 能 平衡 的 较 好 。 


和 105。 

12.62 编写 一 个 程序 ， 把 N 个 随机 关键 字 插 入 到 初始 为 空 的 树 中 形成 一 个 BST， 并 计算 树 的 
最 大 高 度 在! 棵 树 中 进行 搜索 失败 所 涉及 的 最 大 比较 次 数 )， 其 中 和 NN = 10`，104，105 和 105， 
t= 10，100 和 1000。 


12.7 符号 表 的 索引 实现 


对 于 很 多 的 应 用 ， 我 们 希望 无 须 移动 数据 项 ， 通 过 简单 搜索 结构 ， 就 能 找到 数据 项 。 例 
如 ， 我 们 可 能 有 一 个 带 有 关键 字 的 由 数据 项 组 成 的 数组 ， 希 望 搜 索 方 法 可 以 给 出 数组 中 匹配 
某 个 关键 字 的 数据 项 的 索引 。 或 者 我 们 可 能 希望 从 搜索 的 结构 中 删除 某 个 具有 给 定 索引 的 数 
据 项 ， 但 仍然 把 它 保存 在 数组 中 用 作 他 用 。 在 9.6 节 中 ， 我 们 讨论 了 处 理 优先 队列 中 索引 数据 
项 的 优点 。 对 于 符号 表 ， 同 样 的 概念 导致 类 似 的 索引 (index) : 一 种 处 于 数据 项 之 外 的 搜索 
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结构 ， 提 供 了 快速 访问 具有 给 定 关 键 字 的 数据 项 的 方法 。 在 第 16 章 中 ， 我 们 将 要 考虑 数据 项 
甚至 索引 在 外 部 存储 设备 上 的 情况 。 在 这 一 节 里 ， 我 们 简要 地 讨论 数据 项 和 索引 都 在 内 存 中 
的 情况 。 

我 们 可 以 修改 二 又 搜索 树 来 构造 索引 ， 这 种 方法 与 在 9.6 节 介绍 的 间接 提供 堆 的 思维 方法 
完全 一 样 : 在 BST 中 使 用 数据 项 的 数组 索引 作为 数据 项 ， 以 及 经 由 关键 字 宏 从 数据 项 中 提取 
关键 字 。 例如 : 


#define key(A) realkey(a[A]). 


扩展 这 种 方法 ， 如 在 第 3 章 对 链表 所 做 的 那样 ， 我 们 可 以 将 并 行 数组 用 于 链表 。 使 用 三 个 数组 ， 
分 别 用 于 数据 项 、 左 链接 和 右 链接 。 链 接 是 数组 索引 (整数 )。 我 们 在 所 有 代码 中 用 数组 引用 
x = 1[x] 人 代替 链 接 引 用 x = x->1。 

这 种 方法 避免 了 动态 内 存 分 配 的 开销 。 不 管 搜索 函数 是 什么 ， 这 些 数据 项 都 占据 一 个 数 
组 ， 且 我 们 为 每 个 数据 项 预先 分 配 两 个 整数 来 存放 树 的 链接 。 因 为 当 所 有 数据 项 都 在 搜索 结 
构 中 时 ， 我 们 至 少 需要 这 个 数量 的 空间 。 用 于 链接 的 空间 并 非 一 直 在 使 用 ， 但 它 存在 的 且 的 
是 搜索 程序 无 需 提 前 进行 空间 分 配 就 可 以 使 用 。 这 种 方法 的 另 一 个 重要 特征 是 ， 不 需要 改变 
操纵 树 的 代码 ， 就 能 添加 额外 数组 (关于 每 个 节点 的 额外 信息 )。 当 搜索 程序 返回 一 个 数据 项 
的 索引 时 ， 就 给 出 了 一 种 直接 访问 与 那个 数据 项 相关 的 所 有 信息 的 方式 。 搜 索 程 序 通过 使 用 
索引 访问 相应 的 数组 来 完成 这 一 过 程 。 

这 种 实现 BST 的 方法 在 搜索 大 型 数组 中 的 
数据 项 时 非常 有 用 ， 因 为 它 避免 了 把 数据 项 复 
制 到 ADT 的 内 部 表示 的 额外 开销 ， 以 及 提前 定 
义 ma11oc 存 储 分 配 。 在 空间 费用 较 大 和 符号 表 
显著 地 增 大 和 减 小 时 ， 使 用 数组 不 太 合适 ， 尤 
其 在 预先 难以 估计 符号 表 的 最 大 量 时 。 如 果 预 
先 不 能 精确 地 估计 符号 表 的 大 小 ， 在 数据 项 的 
数组 中 未 用 链接 就 可 能 浪费 空间 。 

索引 概念 的 一 个 重要 应 用 是 在 一 个 字符 串 
的 文本 中 提供 关键 字 搜索 〈 见 图 12-11) 。 程 序 
12.10 是 这 种 应 用 的 一 个 例子 。 它 从 一 个 外 部 文 
件 读 入 一 个 文本 字符 串 。 接 着 ， 考 虑 文本 字符 
串 的 每 个 位 置 来 定义 从 那个 位 置 开始 的 一 个 字 
符 串 关键 字 ， 直 到 字符 串 的 末尾 。 使 用 程序 
6.11 中 的 字符 串 - 数 据 项 类 型 定义 的 字符 串 指 
针 ， 把 所 有 关键 字 插 入 到 一 个 符号 中午 生 在 a 字符 囊 关键 
构造 BST 的 字符 串 关键 字 长 度 不 限 ， 我 们 只 维 ”法 : 在 这 个 汪 符 攻 过 人 的 人 人 和 
持 指向 它们 的 指针 ， 并 且 只 看 足以 决定 一 个 字 宇和 区 和 人 
符 串 是 否 比 另 一 个 字符 串 要 小 的 字符 。 不 存在 长 度 原 则 上 不 限 ， 但 实际 上 一 般 只 检查 开头 的 几 
相等 的 两 个 字符 串 〈 它 们 的 长 度 不 同 ) ， 但 如 个 全 从 他 操作 机 富 相 各 Yo 于 丰 守 和 和 
果 我 们 修改 eq， 认 为 一 个 字符 申 是 男 一 个 字符 本 引 为 0) 进行 比较 ， 接着 与 桶 节点 的 右 孩 了 me 
串 的 前 缀 则 两 个 字符 串 就 相等 ， 我 们 就 可 以 使 (索引 为 5) 进行 比较 ， 再 与 me.… 节 点 的 右 孩 子 
用 符号 表 来 找 出 一 个 给 定 的 查询 字符 串 是 否 在 some… (索引 为 16) 进行 比较 ， 然 后 在 some… 节 
文本 中 ， 只 要 简单 调用 STsearch 即 可 。 程序 点 的 左 孩 子 (索引 为 21) 找到 never mind 。 











call me ishmael some... 
5 me ishmael some year... 
8 ishmael some years a... 
16 some years ago never... 
21 years ago never mind... 
27 ago never mind how 1... 
31 never mind how long... 
37 nmind how long precis... 
42 how long Precisely h... 
long precisely havin... 
precisely having lit... 
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12.10 从 标准 输入 上 读 人 查询 序列 ， 使 用 STsearch 来 确定 每 个 查询 是 否 出 现在 文本 中 ， 并 打印 
出 查询 在 文本 中 首次 出 现 的 位 置 。 如 果 符 号 表 是 使 用 BST 来 实现 的 ， 那 么 我 们 由 性 质 12.6 可 得 
搜索 将 需要 约 2N lg N 次 比较 。 例 如 ， 一 旦 构造 了 索引 ， 我 们 可 以 在 包含 约 1 百 万 个 字符 (例如 
Moby Dick) 的 文本 中 , 使 用 30 次 字符 串 比 较 , 找到 任何 短语 。 这 种 应 用 和 编制 索引 是 一 样 的 ， 
因为 C 字 符 串 指针 就 是 一 个 指向 字符 数组 的 索引 。 如 果 p 指 向 text[i] ， 那 么 这 两 个 指针 的 差 
p-text 为 1。 . 
i i 程序 12.10” 索引 一 个 文本 字符 囊 示 例 oe 
这 个 程序 假设 1ten. h 把 keyType 和 itemType 定 义 为 char *， 同时 使 用 strcmp ( 见 正文 ) 
定义 了 字符 串 关 键 字 的 1ess 函 数 和 eq 函数 。#inc1lude 指 令 与 程序 12.2 中 的 相同 (加 上 
<string.h>) 且 被 省 略 。 主 程序 从 某 个 特定 文件 中 读 出 一 个 文本 字符 串 ， 并 使 用 符号 表 利 用 
文本 字符 串 中 每 个 字符 开始 所 定义 的 字符 串 构 造 一 个 索引 。 然 后 ， 它 从 标准 输入 中 读 出 查询 
字符 串 ， 并 打印 出 所 找到 的 查询 在 文本 中 的 位 置 (或 者 打印 not found 信 息 )。 有 了 BST 符 号 
表 实 现 ， 搜 索 很 快 ， 即 使 对 于 大 型 字符 串 也 很 快 。 
#define null(A) (eq(key(A), key{(NULLitem))) 
static char text [maxN] ; 
main(int argc, char *argv[]) 
{f int i, t, N= 0; char query [maxQ]; char *v; 
FILE *corpus = fopen(*++argv, "r"); 
while ((t = getc(corpus)) != EOF) 
if (N < maxN-1) text[N++] = t; else break; 
text [N] = ’\0’; 
STinit (maxN) ; 
for (i = 0; i < N; i++) STinsert (&text [i]):; 
while (gets(query) != NULL) 
if (Inull(v = STsearch(query))) 
printf("%1iid %s\n", v-text, gquery); 
else printf("(not found) %s\n", query); 


当 我 们 在 实际 应 用 中 建立 索引 时 ， 还 有 许多 其 他 问题 需要 思考 ， 还 可 以 采用 很 多 的 方法 
利用 字符 串 关 键 字 性 质 加 速算 法 。 关 于 字符 串 搜索 以 及 对 字符 串 关 键 字 提供 功能 索引 这 两 个 
问题 ， 对 应 的 更 完善 的 方法 将 是 第 五 部 分 的 主题 。 

表 12-2 给 出 了 经 过 实验 得 出 的 一 些 结果 ， 它 们 为 我 们 的 分 析 结 果 提 供 了 支持 。 该 表 也 展 
示 了 BST 对 含有 随机 关键 字 的 动态 符号 表 的 用 处 。 


表 12-2 符号 表 实 现 的 实验 性 研究 


本 表 给 出 了 构造 符号 表 的 相对 时 间 ， 以 及 在 表 中 搜索 每 个 关键 字 的 相对 时 间 。BST 提 供 了 快速 实现 搜索 和 插入 
的 方式 ， 其 他 所 有 方法 执行 搜索 或 是 插入 所 需 时 间 为 二 次 的 。 二 分 搜索 比 BST 搜 索 稍微 快 一 些 , 除非 表 可 以 预先 排序 ， 
否则 二 分 搜索 不 能 用 于 大 型 文件 。 标 准 BST 实 现 为 树 中 每 个 节点 分 配 存 储 空间 ， 而 索引 实现 为 整 棵 树 预先 分 配 存储 空 
间 (加 速 了 构造 过 程 ) 并 使 用 数组 索引 而 不 是 指针 (其 减 慢 搜 索 过 程 )。 





构造 过 程 搜索 命中 
N 
A L B T T* A L B T T* 
1250 1 5 6 1 0 6 13 0 1 1 
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( 续 ) 
y 构造 过 程 搜索 命中 

A L B T T* A L B T T* 
5000 0 87 101 4 3 111 211 2 2 3 
12500 645 732 12 9 709 1398 7 8 9 
25000 2551 2917 24 20 2859 5881 15 21 
50000 61 50 . 38 48 
100000 154 122 104 122 
200000 321 275 200 272 


其 中 ， 

A 无 序数 组 (练习 12.18) 

L 有 序 链表 (练习 12.19) 

B 二 分 搜索 (程序 12.6) 

T 标准 二 又 搜 索 树 (程序 12.7) 

T* 带 索引 的 二 又 搜索 树 (练习 12.64) 


练习 

12.63 ”修改 BST 实 现 (程序 12.7) ， 使 其 不 使 用 分 配 的 内 存 空间 ， 而 使 用 数据 项 的 索引 数组 。 
利用 练习 12.21 或 练习 12.22 中 的 驱动 程序 ， 比 较 你 的 程序 的 性 能 与 标准 实现 程序 的 性 能 。 
12.64 ”修改 BST 实 现 〈 程 序 12.7) ， 利 用 并 行 数组 ， 使 其 支持 带 有 客户 端 数据 项 句柄 的 一 级 符 
号 表 ADT ( 见 12.4 和 练习 12.5) 。 利 用 练习 12.21 或 练习 12.22 中 的 驱动 程序 ， 比 较 你 的 程序 的 
性 能 与 标准 实现 程序 的 性 能 。 

12.65 修改 BST 实 现 (程序 12.7)， 使 用 以 下 思想 来 表示 BST， 在 树 节点 中 保存 带 有 关键 字 的 
数据 项 数组 和 一 个 链接 数组 (每 个 链接 关联 一 个 数据 项 )。BST 中 的 左 链 接 对 应 移 到 树 节 点 的 
数组 中 的 下 个 位 置 ， 右 链接 对 应 移 到 另 一 个 树 节 点 。 
212.66 给 出 文本 字符 串 的 一 个 例子 ， 使 得 程序 12.10 中 的 索引 构造 部 分 的 字符 比较 次 数 为 字 
符 串 长 度 的 二 次 函数 。 

12.67 ”修改 字符 串 索 引 实现 (程序 12.10)， 只 使 用 从 单词 边界 开始 的 关键 字 来 构造 索引 ( 见 
图 12-11)。( 对 于 Moby Dick， 这 种 改变 后 的 索引 大 小 比 原 索 引 的 1/5 还 少 。) 
012.68 实现 程序 12.10。 方 法 是 对 字符 串 指针 数组 使 用 二 分 搜索 ， 使 用 练习 12.36 中 描述 的 
实现 。 

12.69 ”比较 练习 12.68 实 现 的 运行 时 间 与 程序 12.10 的 运行 时 间 ， 构 造 N 个 字符 的 随机 文本 字 
符 串 的 一 个 索引 ，N = 10”，10*，105 和 10*。 并 为 每 个 索引 中 的 随机 关键 字 进 行 1000 次 的 (不 
成 功 ) 搜索 。 


12.8 在 BST 的 根 节点 插入 


在 标准 BST 的 实现 中 ， 每 个 新 节点 都 会 播 和 到 树 的 底层 的 某 个 地 方 ， 替 换 某 个 外 部 节点 。 
这 种 状态 并 不 是 一 个 绝对 的 要 求 ， 它 是 自然 递归 播 和 算法 的 一 个 人 为 要 求 。 在 这 一 节 里 ， 我 
们 考 虚 另 一 种 插入 方法 ， 要 求 每 次 新 插入 的 数据 项 在 树 的 根部 ， 因 而 最 近 插 入 的 节点 都 在 树 
的 上 部 。 用 这 种 方法 构造 的 树 有 一 些 有 趣 的 性 质 ， 但 我 们 考虑 这 种 方法 的 主要 原因 是 ， 它 对 
我 们 将 要 讨论 的 第 13 章 中 的 两 个 改进 的 BST 算 法 起 着 重要 的 作用 。 

假设 所 要 插入 的 数据 项 的 关键 字 大 于 根 节 点 的 关键 字 。 我 们 可 能 把 新 数据 项 放 入 树 中 作 
为 新 的 根 节点 来 构造 一 棵 新 树 ， 原 树 根 作为 新 树 的 左 子 树 ， 原 根 节 点 的 右 子 树 作为 新 树 的 右 
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子 树 。 然 而 ， 右 子 树 可 能 包含 一 些 更 小 的 关键 字 ， 因 而 我 们 需要 进行 更 多 的 工作 以 完成 插入 
过 程 。 类 似 地 ， 如 果 要 播 人 的 数据 项 的 关键 字 小 于 根 节 点 的 关键 字 ， 大 于 根 的 左 子 树 的 所 有 
关键 字 ， 我 们 可 以 再 次 以 新 数据 项 作为 根 节点 构造 一 棵 新 树 ， 但 如 果 左 子 树 包含 一 些 较 大 的 
关键 字 ， 就 需要 做 更 多 的 工作 。 一 般 而 言 ， 要 删除 左 子 树 中 具有 较 小 关键 字 和 右 子 树 中 具有 
较 大 关键 字 的 所 有 节点 ， 似 平 是 一 个 复杂 的 变换 ， 因 为 要 删除 的 节点 可 能 分 散在 要 插入 节点 
的 搜索 路 径 上 。 

幸运 的 是 ， 对 于 这 个 问题 有 一 种 简单 的 递归 方法 ， 该 方法 基于 旋转 (rotation) (关于 树 的 
一 种 基本 变换 ) 。 实 际 上 ， 一 次 旋转 允许 我 们 交换 根 节 点 与 根 的 其 中 一 个 孩子 节点 ， 同 时 保持 
节点 的 关键 字 之 间 的 BST 顺 序 。 一 次 右 旋 转 涉及 根 节点 和 左 孩 子 节点 ( 见 图 12-12)。 旋 转 把 
根 节点 放 在 右边 ， 实 际 上 是 把 根 节 点 的 左 链接 的 方向 反 向 了 : 旋转 之 前 ， 它 从 根 节 点 指向 左 
孩子 节点 ;旋转 之 后 ， 它 从 原 左 孩子 节点 《新 根 节点 ) 指向 原 根 节点 (新 的 根 节 点 的 右 孩子 
节点 ) 。 使 旋转 起 作用 的 技巧 是 把 左 孩 子 节点 的 右 链接 复制 为 原 根 节 点 的 左 链接 。 这 个 链接 指 
向 旋转 中 关键 字 介 于 所 涉及 的 两 个 节点 的 关键 字 之 间 的 所 有 节点 。 最 后 ， 必 须 把 原 根 节点 的 
链接 改变 为 指向 新 的 根 节 点 。 左 旋转 的 描述 与 刚才 给 出 的 描述 一 样 ， 只 是 “ 右 ” 和 “ 左 ” 的 
地 方 互 换 一 下 ( 见 图 12-13)。 





图 12-12 BST 中 的 右 旋转 


注 : 这 个 图 显示 了 在 例子 BST 中 (上 图 ) 的 S 处 的 右 旋 


转 结果 。 和 包含 S 的 节点 向 树 的 下 方 移动 ， 成 为 其 原 
来 左 孩子 节点 的 右 孩 子 节点 。 

从 S 的 左 链接 得 到 指向 新 根 节点 也 的 链接 ， 复 
制 EE 的 右 链接 来 设置 $ 的 左 链接 ,把 E 的 右 链 接 指向 5S， 
把 由 A 指向 S 的 链接 变 为 由 EE 指向 5， 完 成 旋转 操作 。 

旋转 的 作用 是 把 E 和 它 的 堪 子 树 向 上 移 一 层 ， 
把 S 和 它 的 右 子 树 向 下 移 一 层 。 树 的 其 余部 分 不 受 
影响 。 


图 12-13 BST 中 的 左旋 转 


注 : 这 个 图 显示 了 在 例子 BST 中 (上 图 ) 的 A 处 的 左旋 


转 结果 。 和 包含 A 的 节点 向 树 的 下 方 移动 ， 上 成 为 其 原 
来 右 孩 子 节点 的 左 孩 子 节点 。 

从 A 的 右 链接 得 到 指向 新 根 节 点 了 的 链接 ， 复 
制 E 的 左 链 接 来 设置 A 的 右 链接 ， 把 EE 的 左 链 接 指 
向 A， 把 A 的 链接 由 指向 A (该 树 的 头 链 接 ) 变 为 
指向 BE， 完成 旋转 操作 。 


旋转 是 一 个 局 部 的 变化 ， 只 涉及 三 个 链接 和 两 个 节点 ， 这 人 允许 我 们 移动 树 中 的 节点 ， 而 
不 改变 利于 搜索 的 BST 全 局 有 序 性 质 ( 见 程序 12.11)。 我 们 使 用 旋转 移动 树 中 的 某 个 节点 ， 并 
使 树 变 成 不 平衡 的 。 在 12.9 节 中 ， 我 们 实现 delete 操 作 、join 操 作 和 带 有 旋转 的 其 他 ADT 操 作 。 
在 第 13 章 中 ， 我 们 使 用 这 些 操作 构造 能 够 提供 渐 近 最 优 性 能 的 树 。 
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这 两 个 例 程 执行 BT 上 的 旋转 操作 ， 有 旋转 使 原 根 节 点 成 为 新 要 节点 ( 原 根 节 点 的 大 子 
树 ) 的 右 子 树 ， 左 旋转 使 原 根 节点 成 为 新 根 节 点 〈 原 根 节点 的 右 子 树 ) 的 左 子 树 。 实 现 中 需 
要 在 节点 中 维持 一 个 计数 域 例如， 用 于 支持 将 在 14.9 节 中 见 到 的 select 操 作 约 计数 域 ) ， 我 们 
还 需要 交换 在 旋转 操作 中 涉及 的 节点 中 的 计数 域 ( 见 练 习 12.72) 。 

link rotR(link bh) 

{ link x = h->1; h->1 = x->r; x->r = hi 
return x; } 

link rotL(link h) 

{ link x = h->r; h->r = x->1; x->1 = hi; 
return x; } 


旋转 操作 为 根 节点 插 和 人 提供 了 一 种 直接 递归 实现 : 递归 地 把 新 数据 项 插入 到 相应 的 子 树 
中 (当道 归 操 作 完 成 时 ， 把 它 放 在 那 棵 树 的 根部 ) ， 然 后 旋转 使 其 成 为 主 树 的 根 节点 。 图 
12-14 挤 述 了 一 个 例子 ， 程序 12.12 是 这 种 方法 的 一 个 直接 实现 。 这 个 程序 对 于 递归 威力 很 有 说 
服 力 。 不 那么 信服 的 读者 可 以 试 一 试 练习 12.73。 








12-14 BST 的 根 插 入 


注 : 这 个 序列 描述 了 把 G 插 入 到 BST 的 顶部 的 结果 ， 插 入 之 后 进行 (递归) 旋转 把 新 插入 的 节点 G 带 到 根 处 。 这 
个 过 程 等 价 于 先 插入 G， 然 后 执行 一 系列 旋转 把 它 带 到 报 处 。 
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“程序 12. 他 BST 中 的 根 擅 入 ， 


有 了 程序 12. 11 中 的 旋转 函数 ， 直接 可 得 在 BST 的 根 括 入 一 个 新 节点 的 递归 函数 : 在 合适 
子 树 的 根 处 播 人 新 的 数据 项 ， 然 后 执行 合适 的 旋转 操作 使 它 成 为 主 树 的 根 。 


link insertT(link h, Item item) 
{ key V = key(item); 
if (h == Z) return NEW(item, z, z, 1); 
if (less(v, key(h->item))) 
{ h->1 = insertT(h->1, item); h = rotR(h); } 
else 
{ h->r = insertT(h->r, item); h = rotL(h); } 
return h; 
} 
void STinsert (Item item) 
{ head = insertT(head, item); } 


图 12-15 和 图 12-16 显 示 了 使 用 根 插入 方法 ， 把 一 列 关键 字 插 入 到 初始 为 空 的 树 中 ， 构 造 
BST 的 过 程 。 如 果 关 键 字 序列 是 随机 的 ， 用 这 种 方法 构造 的 BST 具 有 和 用 标准 方法 构造 的 BST 
完全 一 样 的 随机 性 质 。 例 如 ， 性 质 12.6 和 性 质 12.7 对 于 用 根 插 入 法 构造 的 BST 都 成 立 。 


由 

XR 

A om 
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图 12-15 用 根 插入 法 构造 BST 图 12-16 用 根 插入 法 构造 BST ( 续 ) 
注 : 这 一 序列 档 述 了 使 用 根 插 入 法 把 关键 字 A SERC 注 ; 这 一 序列 描述 了 把 关键 字 N G X M PL 揪 入 到 图 
H I 播 入 到 初始 为 空 的 BST 中 的 过 程 。 每 个 新 节点 12-15 开 始 的 BST 中 的 过 程 。 


插入 到 根部 ， 沿 着 它 的 搜索 路 径 ， 改 变 链 接 使 这 
棵 树 成 为 一 哥 正 确 的 BST。 
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实际 上 ， 根 插入 法 的 一 个 优点 是 最 近 插 入 的 关键 字 在 树 的 顶部 附近 。 因 而 对 于 最 近 插 入 
的 关键 字 的 搜索 命中 的 开销 可 能 会 比 标准 方法 的 开销 要 小 。 这 个 性 质 很 有 意义 ， 因 为 很 多 应 
用 问题 动态 地 混合 了 搜索 操作 和 插入 操作 。 符 号 表 中 可 能 含有 大 量 的 数据 项 ， 但 这 些 搜索 中 
可 能 引用 的 数据 项 很 大 比例 是 最 近 才 插入 的 数据 项 。 例 如 ， 在 一 个 商业 事务 处 理 系 统 中 ， 当 
前 活动 的 事物 可 以 逗留 在 顶部 附近 并 可 迅速 处 理 ， 不 需要 访问 原 有 已 经 遗失 的 事务 。 根 插入 
法 自动 给 予 数据 结构 这 种 性 质 以 及 类 似 性 质 。 

如 果 我 们 改变 搜索 函数 ， 在 搜索 命中 时 把 找到 的 节点 带 到 根 处 ， 那 么 我 们 得 到 一 种 自 组 
织 的 搜索 方法 ( 见 练习 12.26) ， 它 把 经 常 访问 到 的 节点 保持 在 树 的 顶部 。 在 第 13 章 中 ， 我 们 
将 看 到 这 一 思想 影响 下 的 一 个 系统 应 用 。 它 提供 了 符号 表 的 一 种 实现 方法 ， 能 够 保证 快速 的 
性 能 特征 。 

正如 我 们 在 本 章 提 到 的 几 种 其 他 方法 那样 ， 很 难 对 实际 应 用 中 根 插入 法 和 标准 插入 法 的 
性 能 做 出 一 个 精确 的 定论 ， 这 是 因为 具体 性 能 依赖 于 符号 表 操 作 的 混合 ， 在 某 种 意义 上 ， 它 
是 难以 分 析 刻 画 的 。 如 果 已 知 大 部 分 搜索 操作 针对 于 最 近 播 入 的 数据 ， 则 我 们 不 能 分 析 该 算 
法 的 这 一 事实 不 能 成 为 我 们 不 使 用 根 插入 法 的 理由 ， 但 我 们 始终 寻求 精确 的 性 能 保障 。 第 13 
章 的 主要 重点 就 是 构造 能 够 提供 这 些 保 证 的 BST。 
练习 
>12.70 使 用 根 插入 法 ， 画 出 把 带 有 关键 字 E A SY Q UE STIO NN 的 数据 项 插入 到 初始 为 空 
的 树 中 所 得 BST 的 过 程 图 。 
12.71 ”给 出 10 个 关键 字 的 一 个 序列 (使 用 字母 A 到 J 表示 )， 使 用 根 插入 法 把 它们 插入 到 初始 
为 空 的 树 中 ， 要 求 用 最 大 数量 的 比较 次 数 来 构造 这 棵 树 。 给 出 所 使 用 的 比较 次 数 。 
12.72 添加 程序 12.11 中 所 需 的 代码 ， 使 该 程序 能 修改 旋转 之 后 必须 改变 的 计数 域 。 
012.73 实现 非 递归 的 BST 根 插入 函数 ( 见 程 序 12.12)。 
12.74 进行 实验 研究 ， 首 先 把 N 个 随机 关键 字 播 和 人 到 初始 为 空 的 树 中 构造 一 棵 BST， 然 后 在 
N/10 个 最 新 插入 的 关键 字 中 执行 N 次 随机 搜索 。 计 算 搜 索 命中 和 搜索 失败 所 使 用 的 比较 次 数 的 
平均 值 和 标准 差 ，N = 10”，10*，10 和 10。 对 于 标准 插入 法 和 根 插入 法 进行 实验 研究 ， 并 比 
较 所 得 结果 。 


12.9 其 他 ADT 函 数 的 BST 实 现 


在 12.5 节 中 使 用 二 又 树 结构 给 出 基本 操作 search、insert 和 sort 的 递归 实现 是 直接 的 。 在 这 
一 节 中 ， 我 们 考虑 操作 select、join 和 delete 的 实现 。 在 这 些 操作 中 ，select 也 有 一 种 自然 的 递 
归 实 现 ， 但 其 他 操作 实现 起 来 可 能 较 麻 烦 。 之 所 以 考虑 select 操 作 的 重要 性 ， 是 因为 高 效 支持 
select 和 sort 的 能 力 正 是 BST 比 其 他 数据 结构 具有 竞争 力 的 一 个 原因 ,一 些 程序 员 避 免 使 用 BST， 
以 此 来 避免 必须 处 理 delete 操 作 。 在 这 一 节 里 ， 我 们 将 看 到 一 个 紧凑 的 实现 方法 ， 它 把 这 些 操 
作 结 合 起 来 ， 并 使 用 了 12.8 节 的 “旋转 到 根 ” 的 技术 。 

一 般 地 ， 这 些 操作 都 顺 着 树 的 一 条 路 径 向 下 移动 所 以 对 于 随机 BST， 我 们 可 预期 它 的 开 
销 是 对 数 级 的 。 然 而 ， 我 们 不 能 想当然 地 认为 当 在 树 上 执行 多 个 操作 时 ，BST 仍 保持 随机 状 
态 。 在 这 一 节 的 末尾 我 们 将 回 到 这 个 问题 上 来 。 

为 了 实现 select 操 作 ， 我 们 可 以 使 用 一 种 递归 过 程 ， 它 类 似 于 7.8 节 描述 过 的 基于 快速 排序 
的 选择 方法 。 为 了 在 一 棵 BST 中 找 出 含有 第 k 个 最 小 关键 字 的 数据 项 ， 我 们 检查 左 子 树 中 的 节 
点 数目 。 若 左 子 树 存 在 Kk 个 节点 ， 那 么 我 们 返回 树 根 处 的 数据 项 。 否 则 ， 若 左 子 树 含有 k 个 以 
上 的 节点 ,我们 就 (递归 地 ) 在 左 子 树 寻 找 含有 第 k 个 最 小 关键 字 的 数据 项 。 如 果 这 两 个 条 件 
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都 不 成 立 ， 则 左 子 树 含有 1 个 数据 项 且 t1 < 上 ，BST 中 带 有 第 K 个 最 小 关键 字 的 数据 项 就 是 右 子 树 
的 第 (Kk 一 一 1) 个 最 小 关键 字 的 数据 项 。 程 序 12.13 是 这 种 方法 的 一 个 直接 实现 。 通 常 ， 因 为 
国 数 的 每 次 执行 最 多 以 一 次 递归 调用 结束 ， 我 们 马上 可 得 出 一 个 非 递 归 版 本 ( 见 练习 12.75)。 
程序 12.13 ，BST 中 的 选择 操作 ， . 
递归 函数 selectR 找 出 BST 中 带 有 第 x 个 最 小 关键 字 的 数据 项 。 它 使 用 基于 0 的 索引 。 例 如 ， 
我 们 取 k = 0 来 搜索 具有 最 小 关键 字 的 数据 项 。 这 个 代码 假设 每 个 节点 的 子 树 大 小 在 N 域 中 。 把 
这 个 程序 与 用 数组 描述 的 基于 快速 排序 的 选择 操作 (程序 9.6) 进行 比较 。 
Item SelectR(LIink h, int k) 
{f int t; 
if (h == Z) return NULLitem; 
t = (h->1 == Z) 了 0 : h->1->N; 
if (t > k) return selectR(h->1, k); 
if (t < k) return selectR(h->r, k-t-1); 
return h->itenm; 
} 
~ Item STselect(int k) 
{ return selectR(head, EK); } 


从 算法 学 的 角度 来 说 ， 在 BST 的 节点 中 引入 计数 域 的 主要 原因 是 为 了 支持 select 实 现 。 它 
还 允许 我 们 支持 对 计数 (count) 操作 的 一 个 平凡 实现 (返回 根 的 计数 域 )。 在 第 13 章 中 我 们 
将 会 看 到 引入 计数 域 的 另 一 种 用 途 。 使 用 计数 域 的 缺点 是 : 它 在 每 个 节点 都 占用 额外 空间 ， 
每 个 改变 这 棵 树 的 函数 必须 更 新 此 域 。 在 一 些 以 搜索 和 插入 为 主要 操作 的 应 用 中 ， 也 许 不 值 
得 费心 来 维持 计数 域 ， 但 如 果 一 个 动态 符号 表 中 对 select 操 作 的 支持 十 分 重要 ， 那 么 为 此 付出 
的 也 许 只 是 一 个 小 小 的 代价 。 

我 们 可 以 把 这 个 select 操 作 的 实现 改 为 划分 (partition) 操作 ， 后 者 重 排 树 把 第 个 最 小 元 
素 放 在 根 节点 ， 这 正 是 我 们 在 12.8 节 中 根 插入 法 所 使 用 的 递归 技术 : 如 果 我 们 (递归 ) 把 所 
求 的 节点 放 到 一 棵 子 树 的 树 根 ， 我 们 就 可 以 用 一 次 旋转 操作 使 它 成 为 整 棵 树 的 根 。 程 序 12.14 
给 出 了 这 种 方法 的 一 个 实现 。 如 同 旋转 ， 划 分 不 是 一 个 ADT 操 作 ， 因 为 它 是 一 个 转换 特定 符 
号 表 表 示 方 法 的 国 数 ， 对 客户 程序 应 该 是 透明 的 。 更 正确 地 ， 它 是 一 个 辅助 程序 ， 我 们 可 利 
用 它 实现 ADT 操 作 或 者 使 ADT 操 作 更 高 效 地 运行 。 图 12-17 描 述 了 这 样 一 个 例子 〈 与 图 12-14 
中 的 方法 一 样 ) ， 显 示 了 这 个 过 程 是 如 何 沿 着 树 根 到 树 中 所 求 节点 的 路 径 从 上 向 下 进行 的 ， 然 
后 向 上 返回 ， 执行 旋转 操作 把 那个 所 求 节 点 带 到 树 根 。 


”程序 12.14 “BST 中 的 划分 操作 


“在 递归 调用 之 后 增加 旋转 可 把 程序 12. 13 中 的 选择 函数 变 成 把 所 选择 的 数据 项 让 在 根 处 
的 函数 。 


link partR(link h, int Xk) 
{ int 七 = h->1->N; 


if (t >k) 

{ hbh->1 = partR(h->1, k); h = rotR(h); } 
if (t <k) 

{ h->r = partR(h->r, k-t-1); h = rotL(h); } 
return h; 


} 
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图 12-17 BST 的 划分 
注 : 这 个 序列 描述 了 (递归 ) 使 用 根 插入 法 中 的 旋转 方法 ， 把 BST 示 例 (上 图 ) 进行 关键 字 中 值 划 分 的 过 程 (下 图 )。 


要 从 BST 中 删除 给 定 关键 字 的 一 个 节点 ， 首 先 检查 那个 节点 是 否 在 其 中 的 一 棵 子 树 中 。 
如 果 在 子 树 中 ， 我 们 用 从 该 子 树 (递归 ) 删除 该 节点 的 结构 代替 原来 的 子 树 。 如 果 要 删除 的 
节点 在 根部 ， 我 们 用 两 棵 子 树 合并 成 一 棵 树 的 结果 代替 原 树 。 完 成 这 个 结合 有 儿 种 方法 可 供 
选择 。 图 12-18 显 示 了 一 种 方法 ， 而 程序 12.15 给 出 了 另 一 种 实现 。 若 已 知 两 棵 BST 中 第 二 棵 中 
的 所 有 关键 字 都 大 于 第 一 棵 中 的 所 有 关键 字 ， 要 组 合 它 们 ， 我 们 对 第 二 棵 树 应 用 划分 操作 ， 
以 便 把 其 中 最 小 的 元 素 带 到 树 根 。 此 时 ， 这 个 根 的 左 子 树 必须 为 空 ( 否 则 会 存在 一 个 比 根 还 
小 的 元 素 ， 这 是 一 个 矛盾 ) ， 而 我 们 可 通过 用 一 个 指向 第 一 棵 树 的 链接 代替 根 节点 的 链接 ， 完 
成 这 项 工作 。 图 12-19 用 一 棵 示例 树 显示 了 删除 过 程 ， 它 说 明了 可 能 产生 的 一 些 情况 。 


“程序 12.15 在 BST 中 删除 一 个 给 定 关键 字 的 节点 
这 个 delete 操 作 实 现 删 除 BST 中 遇 到 的 关键 字 为 v 的 第 一 个 节点 。 按照 自 顶 向 下 的 方式 ， 
递归 调用 合适 的 子 树 ， 直 到 要 被 删除 的 节点 在 根部 。 然 后 ， 用 其 两 棵 子 树 的 组 合 结果 代替 该 
节点 一 一 即 右 子 树 中 的 最 小 节点 变 成 根 节 点 ， 然 后 它 的 左 链接 被 设置 指向 左 子 树 。 


link joinLR(link a, link b) 
t 
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if (b == Z) return a; 
b = partR(b, 0); b->1 = ai 
return b; 

} 

link deleteR(link h, Key v) 

{ link xi Key t = key(h->item); 
if (h == 2) return 2z; 
if (Jess(v, t)) h->1 = deleteR(h->1, v):; 
if (less(t, Vv)) h->r = deleteR(h->r, v); 
if (eq(v, t+)) 

{x= h; h= joinLR(h->1, h->r); free(x); } 

return h; 


} 


void STdelete(Key v) 
{ head = deleteR(head, v); } 





图 12-18 在 BST 中 删除 根 图 12-19 在 BST 中 删除 节点 
注 : 本 图 显示 了 在 一 棵 示例 BST (上 图 ) 中 删除 根 节 点 注 : 这 个 序列 描述 了 从 顶部 把 带 有 关键 字 L、HH 和 EE 的 
后 的 结果 (下 图 )。 首 先 ， 我 们 删除 该 节点 ， 贸 下 两 节点 从 BST 中 删除 后 的 结果 。 首 先世 被 直接 删除 ， 
探 子 树 (从 上 往 下 数 第 2 个 图 ) 。 然 后 我 们 划分 右 子 因为 它 在 树 的 底部 。 然 后 ，H 被 它 的 右 孩 子 I 取代 ， 
树 ， 使 得 最 小 元 素 在 树 根 处 (从 上 往 下 数 第 3 个 图 )， 因为 I 的 左 孩 子 为 室 。 最 后 ，E 被 它 的 后 继 节 点 G 取 
并 将 其 左 链接 指向 一 棵 空子 树 。 最 后 ， 我 们 用 一 个 代 。 


指向 原 树 的 左 子 树 的 链接 代替 该 链接 (下 图 )。 


这 种 方法 是 不 对 称 的 ， 而 且 在 某 种 意义 上 是 特别 的 ; 为 什么 用 第 二 棵 树 中 最 小 的 关键 字 
作为 新 树 的 根 ， 而 不 用 第 二 棵 树 中 最 大 的 关键 字 呢 ? 也 就 是 说 ， 对 于 我 们 正 准备 删除 的 节点 ， 
为 什么 选择 它 在 树 的 中 序 遍 历 中 的 下 一 个 节点 代替 它 ， 而 不 用 前 一 个 节点 代替 它 昵 ?我 们 也 
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许 还 希望 考虑 其 他 方法 。 例 如 ， 如 果 被 删除 的 节点 有 一 个 空 的 左 链接 ， 为 什么 不 使 它 的 右 孩 
子 成 为 新 的 根 节点 ， 而 使 用 右 子 树 中 带 有 最 小 关键 字 的 节点 呢 ? 对 这 个 基本 删除 程序 的 许多 
类 似 修正 都 有 人 提出 过 。 不 幸 的 是 ， 它 们 都 具有 一 个 相似 的 缺点 ， 即 使 先前 这 棵 树 是 随机 的 ， 
删除 以 后 留 下 的 树 也 不 是 随机 的 。 而 且 ， 事 实 已 经 表明 :如果 对 这 棵 树 进行 大 量 随机 的 “ 删 
除 一 插入 ”操作 对 ( 见 练习 12.81) ， 程 序 12.15 倾 向 于 得 出 一 棵 稍微 失去 平衡 的 树 (平均 高 度 
正比 于 VN )。 

在 实际 应 用 中 ， 也 许 不 会 注意 到 这 些 差 别 ， 除 非 N 非 常 大 。 但 是 ， 一 种 不 完美 的 算法 和 不 
符合 需要 的 性 能 特征 结合 起 来 ， 也 是 不 能 令 人 满意 的 。 在 第 13 章 我 们 将 分 析 两 种 不 同 的 方法 
以 解决 这 些 情况 。 

搜索 算法 要 求 的 删除 实现 要 比 搜索 实现 复杂 得 多 ， 这 种 情况 是 典型 的 。 这 些 关键 字 值 在 
该 结构 的 构 形 中 扮演 了 一 个 综合 的 角色 ， 因 此 删除 一 个 关键 字 可 能 导致 很 复杂 的 修补 工作 。 
一 种 选择 是 使 用 懒 情 的 删除 策略 ， 把 删除 的 节点 留 在 数据 结构 中 但 把 它们 标注 为 “已 删除 ”， 
从 而 在 搜索 中 可 以 忽略 它们 。 在 程序 12.7 的 搜索 实现 中 ， 我 们 可 能 跳 过 对 这 些 节 点 的 相等 性 
测试 ， 从 而 实现 这 些 策略 。 我 们 必须 确保 大 量 带 标注 的 节点 不 会 引起 时 间或 空间 的 过 度 浪费 ， 
但 是 如 果 删 除 操作 并 不 频繁 ， 其 额外 开销 也 许 是 微不足道 的 。 方 便 的 时 候 (例如 ， 对 于 树 底 
部 的 节点 很 容易 做 到 ) ， 我 们 可 以 把 带 标注 的 节点 重用 于 未 来 的 插入 操作 中 。 或 者 ， 我 们 可 以 
周期 性 地 重建 整个 数据 结构 ， 删 去 带 标注 的 节点 。 这 些 考 虑 对 任何 牵涉 插入 和 删除 的 数据 结 
构 都 适用 ， 因 为 它们 不 是 符号 表 的 专利 。 

我 们 通过 考虑 带 有 句柄 的 delete 实 现 和 使 用 BST 的 一 级 符号 表 ADT 的 join 实现 ， 结 束 本 章 
的 讨论 。 假 设 句柄 是 链接 ， 且 省 略 对 封装 问题 的 进一步 讨论 ， 因 而 我 们 可 以 集中 到 两 个 基本 
算法 上 。 

在 删除 一 个 带 有 给 定 句 柄 (链接 ) 的 节点 的 函数 实现 中 ， 主 要 挑战 和 链表 中 遇 到 的 一 样 : 
我 们 需要 更 改 结构 中 指向 正 被 删除 节点 的 指针 。 至 少 存在 四 种 解决 这 个 问题 的 方法 。 第 一 种 
方法 ， 我 们 可 向 树 的 每 个 节点 加 入 第 三 个 链接 ， 它 指向 节点 的 父 节点 。 这 种 方法 的 缺点 是 维 
护 额外 的 链接 是 一 件 很 麻烦 的 工作 ， 我 们 在 之 前 的 几 种 情况 已 经 提 到 了 这 一 点 。 第 二 种 方法 ， 
我 们 可 以 利用 数据 项 中 的 关键 字 在 树 里 搜索 ， 当 找到 一 个 匹配 指针 就 停止 。 这 种 方法 的 缺陷 
是 : 节点 的 平均 位 置 接近 树 的 底部 ， 因 而 这 种 方法 需要 在 树 中 进行 不 必要 的 遍历 。 第 三 种 方 
法 ， 我 们 可 以 使 用 一 个 指向 该 节点 的 指针 的 指针 作为 句柄 。 这 种 方法 是 一 种 利用 C 语 言 的 解决 
方法 ， 但 其 他 很 多 语言 不 支持 这 种 作法 。 第 四 各 方法， 我们 可 采用 一 种 懒 情 方法 ， 标 广 出 已 
删除 的 节点 并 周期 性 地 重建 数据 结构 ， 正 如 刚刚 描述 的 那样 。 

我 们 需要 考虑 的 关于 一 级 符号 表 ADT 的 最 后 一 个 操作 是 join 操作 。 在 一 个 BST 的 实现 中 ， 
这 等 同 于 归并 两 棵 树 。 我 们 怎样 把 两 个 BST 连 接 成 一 个 BST 呢 ?有 很 多 方法 能 够 做 到 这 一 点 ， 
但 是 每 种 都 有 缺点 。 例 如 ， 我 们 可 以 遍历 第 一 个 BST， 把 它 的 每 个 节点 插入 到 第 二 个 BST 中 
(这 种 算法 是 一 种 单程 过 程 : 把 第 二 个 BST 中 的 STinsert 当 作 第 一 个 BST 的 STsort 中 的 visit 
过 程 来 使 用 ) 。 因 为 每 次 插入 都 是 线性 时 间 ， 因 而 这 种 解决 方案 没有 线性 的 运行 时 间 。 男 一 种 
思想 是 遍历 两 覃 BST， 把 数据 项 放 到 数组 中 ， 归 并 它们 ， 然 后 构造 一 棵 新 的 BST。 这 个 操作 可 
以 在 线性 时 间 内 完成 ， 但 它 还 要 使 用 一 个 很 大 的 数组 。 

程序 12.16 是 join 操作 的 一 种 紧 姿 的 线性 时 间 递 归 实 现 。 首 先 ， 我 们 利用 根 所 入 法 ， 把 第 
一 棵 BST 的 根 插入 到 第 二 棵 BST 中 。 这 个 操作 使 我 们 得 到 两 棵 关键 字 小 于 这 个 根 节点 的 关键 字 
的 子 树 ， 和 两 棵 关键 字 大 于 这 个 根 节点 的 关键 字 的 子 树 ， 因 此 我 们 通过 以 下 处 理 得 到 结果 : 
(递归 ) 把 前 面 一 对 结合 到 这 个 根 的 左 子 树 ， 把 后 面 一 对 结合 到 这 个 根 的 右 子 树 (1 )。 在 一 
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次 递归 调用 中 ， 每 个 节点 最 多 只 可 以 成 为 根 节点 一 次 ， 所 以 总 计时 间 是 线性 的 。 图 12-20 显 示 
了 一 个 例子 。 像 删除 一 样 ， 这 个 过 程 是 不 对 称 的 而 且 可 以 产生 很 不 平衡 的 树 ， 但 随机 化 提供 
了 一 种 简单 的 修正 方法 ， 我 们 将 在 第 13 章 看 到 这 一 点 。 





图 12-20 两 棵 BST 的 连接 


注 ; 这 个 图 显示 了 组 合 两 个 示例 BST (上 图 ) 的 结果 (下 图 )。 首 先 ， 我 们 使 用 根 质 入 法 ， 把 第 一 哥 树 的 根 节点 
G 插 入 到 第 二 棵 树 中 〈 从 上 往 下 数 第 2 个 图 ) 。 留 下 关键 字 小 于 G 的 两 标 子 树 和 关键 字 大 于 G 的 两 个 子 树 。 递 
归 地 把 两 对 组 合 起 来 得 到 最 终结 果 (下 图 )。 


程序 12.16 两 棵 BST 的 连接 


如 果 任 一 BST 为 空 ， 则 连接 结果 为 另 一 棵 BST。 否 则 ， 我 们 (任意) 组 合 这 两 棵 BST， 选 
择 第 一 棵 BST 的 根 作为 树 根 ， 用 根 插入 法 把 它 插 入 到 第 二 棵 BST， 然 后 (递归 地 ) 组 合 左 子 树 
对 和 右 子 树 对 。 
link STjoin (link a, link b) 
{ 
if (b == Z) return a; 
if (a == Z) return bi 
b = insertT(b, a->item); 
b->1 = STjoin(a->1, b->1); 
b->r = STjoin(a->r, b->r); 
free(a); 
return b; 


} 


要 注意 的 是 : 对 join 操作 使 用 的 比较 操作 次 数 即 使 在 最 坏 情 况 下 也 至 少 会 达到 线性 时 间 ， 
否则 我 们 可 以 利用 一 种 诸如 自 底 向 上 归并 排序 的 方法 〈 见 练习 12.85) ， 开 发 一 种 使 用 少 于 N lg N 
次 比较 的 排序 算法 。 

在 join 操作 和 delete 操 作 的 转换 期 间 ， 我 们 还 没有 引入 维持 BST 中 节点 的 计数 域 所 必需 的 
代码 ， 它 对 于 我 们 希望 还 能 支持 select 操 作 的 应 用 (程序 12.13) 也 是 必需 的 。 在 概念 上 来 说 这 
个 任务 很 简单 ， 但 仍 要 谨慎 面 对 。 提 出 的 一 种 系统 方法 是 实现 一 个 小 型 实用 程序 。 它 用 比 一 
个 节点 所 有 和 孩子 节点 的 计数 域 总 和 大 1 的 值 设置 该 节点 的 计数 域 ， 然 后 对 每 一 个 链接 被 更 改 的 
节点 调用 这 个 程序 。 更 具体 地 说 ， 我 们 可 对 程序 12.11 中 的 rotL 和 rotR 的 节点 都 这 样 处 理 ， 这 
样 已 经 能 够 满足 程序 12.12 和 程序 12.14 的 转换 需要 了 ， 因 为 它们 只 使 用 旋转 操作 来 转换 树 。 对 
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于 程序 12.15 的 joinLR、deleteR 以 及 程序 12.16 的 STjoin 的 要 返回 的 节点 ， 调 用 节点 计数 更 新 
程序 就 是 以 完成 任务 了 。 
基本 的 BST 操 作 search、insert 和 sort 很 容易 实现 ， 并 且 对 于 大 小 适中 的 随机 操作 序列 进行 
的 很 好 ， 因 而 BST 广 泛 应 用 于 动态 符号 表 中 。 它 们 还 支持 其 他 各 种 操作 的 简单 递归 方案 , 正 
如 我 们 在 本 章 的 select、delete 和 join 操作 中 所 看 到 的 。 我 们 还 将 在 本 书 稍 后 看 到 很 多 的 例子 。 
尽管 BST 很 实用 。 但 在 应 用 中 使 用 BST 有 两 个 主要 的 缺点 。 第 一 个 缺点 是 链接 要 求 大 量 的 
空间 。 我 们 常常 把 链接 和 记录 看 作 同 样 的 大 小 〈 比 如 说 一 个 机 器 字 ) ， 如 果 是 这 种 情况 ， 那 么 
一 个 BST 实 现 要 把 它 分 配 所 得 到 的 内 存 空间 的 三 分 之 二 用 于 链接 ， 只 有 三 分 之 一 用 于 关键 字 。 
这 种 作用 对 于 具有 大 型 记录 的 应 用 不 那么 重要 ， 但 在 使 用 大 型 指针 的 环境 中 就 有 很 大 的 影响 。 
如 果 内 存 资源 十 分 宝贵 ， 我 们 也 许 宁 愿 用 第 14 章 的 一 种 开放 地 址 散 列 法 ， 也 不 使 用 BST 了 。 
使 用 BST 的 第 二 个 缺点 是 树 的 平衡 性 可 能 变 得 很 差 ， 并 引起 性 能 急剧 降低 。 在 第 13 章 中 ， 
我 们 将 分 析 几 种 方法 以 提供 性 能 上 的 保障 。 如 果 链 接 的 内 存 空间 满足 需求 ， 这 些 算法 可 使 
BST 成 为 符号 表 ADT 实 现 基础 的 一 个 极 佳 选 择 ， 因 为 对 于 用 处 较 大 的 ADT 操 作 的 一 个 大 型 集 
合 ， 这 些 算 法 的 快速 性 能 有 保证 。 
练习 
>12.75 实现 非 递归 BST 中 的 select 国 数 〈 见 程序 12.13 ) 。 
>12.76 ” 画 出 把 带 有 关键 字 E A SY QU E STIO N 的 数据 项 插入 到 初始 为 空 的 树 中 然后 删除 
Q 后 的 BST 结 果 。 
>12.77 ”和 画 出 把 带 有 关键 字 E A S Y 的 数据 项 插入 到 初始 为 空 的 树 中 ， 把 带 有 关键 字 Q UE ST 
IO N 的 数据 项 插入 到 初始 为 空 的 另 一 棵 树 中 ， 两 者 组 合 后 的 二 又 搜索 树 。 
12.78 ”实现 韭 递归 BST 中 的 delete 函 数 ( 见 程 序 12.15)。 
12.79 ”实现 BST 中 的 一 个 delete 版 本 (程序 12.15)， 它 可 以 删除 树 中 等 于 给 定 关 键 字 的 所 有 节点 。 
co12.80 使 用 BST 开 发 一 个 符号 表 的 实现 ， 它 支持 带 有 客户 端 数据 项 句柄 的 一 级 符号 表 ADT 中 
的 初始 化 操作 、 计 数 操作 、 搜 索 操 作 、 播 入 操作 、 删 除 操 作 、 连 接 操作 、 选 择 操 作 和 排序 操 
作 《〈 见 练习 12.4 和 练习 12.5) 。 
12.81 进行 实验 分 析 ， 确 定 在 一 棵 N 个 节点 的 随机 树 中 ， 交 赫 进 行 随 机 插入 操作 和 删除 操作 
的 长 序列 ，BST 的 高 度 是 如 何 增长 的 ?其 中 N = 10，100 和 1000。 对 于 每 个 N， 要 求 达 到 NN? 次 
的 插入 一 删除 操作 对 。 
12.82 ”实现 STdelete ( 见 程 序 12.15) 的 一 个 版 本 ,使 用 随机 决策 来 确定 是 用 树 中 一 个 节点 
的 前 驱 还 是 后 继 来 代替 该 节点 。 对 于 这 个 版 本 进行 练习 12.81 中 所 描述 的 实验 。 
co12.83 实现 STdelete ( 见 程序 12.15) 的 一 个 版 本 ， 通 过 一 些 旋 转 操 作 ， 使 用 根 揪 入 法 ( 程 
序 12.12) 和 递归 函数 把 要 删除 的 节点 移 到 树 的 底部 。 画 出 从 31 个 节点 的 完全 二 又 树 中 删除 根 
后 所 产生 的 树 。 
co12.84 ”进行 实验 分 析 ， 反 复 在 根 处 把 数据 项 播 入 树 中 ， 这 棵 树 是 把 根 的 子 树 与 N 个 节点 的 随 
机 树 相 结合 而 产生 的 ， 确 定 BST 的 高 度 是 如 何 增长 的 。 其 中 N = 10，100 和 1000。 
co12.85 ”实现 基于 join 操作 的 自 底 向 上 归并 排序 的 一 个 版 本 : 先 把 关键 字 放 入 N 棵 1 个 节点 的 树 
中 ， 然 后 成 对 结合 每 一 个 节点 树 ， 得 到 NM/2 棵 2 个 节点 的 树 ， 然 后 成 对 组 合 2 个 节点 树 得 到 N/4 
棵 4 个 节点 的 树 ， 以 此 类 推 。 
12.86 ”实现 STjoin 操 作 ( 见 程序 12.16) 的 一 个 版 本 ， 它 随机 决定 是 用 第 一 棵 树 的 根 还 是 第 
二 棵 树 的 根 作为 结果 树 的 根 。 对 于 这 个 版 本 进行 练习 12.84 中 描述 的 实验 。 
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上 一 章 讨论 的 BST 算 法 对 于 各 种 应 用 都 发 挥 了 很 好 的 作用 ， 但 它们 的 确 都 存在 最 坏 情 况 
性 能 的 问题 。 而 且 ， 一 个 颇 为 尴 熔 的 事实 是 ， 如 果 算 法 的 用 户 不 注意 的 话 ， 标 准 BST 算 法 的 
最 坯 情况 ， 如 快速 排序 在 实际 中 就 可 能 出 现 。 已 经 有 序 的 文件 、 有 大 量 重复 关键 字 的 文件 、 
逆序 文件 、 大 小 关键 字 交 替 的 文件 ， 或 者 其 中 任意 片断 具有 简单 结构 的 文件 ， 它 们 都 可 能 导 
致 二 次 的 BST 构 造 时 间 和 线性 的 搜索 时 间 。 

在 理想 的 情况 下 ， 我 们 可 以 使 树 保持 完美 的 平衡 状态 ， 如 图 13-1 所 示 。 这 个 结构 对 应 着 
二 又 搜索 树 ， 因 而 我 们 可 以 保证 所 有 搜索 的 比较 次 数 少 于 lg N+1 次 ， 但 是 维护 动态 插入 和 删 
除 需要 昂贵 的 开销 。 对 于 所 有 外 部 节点 都 位 于 树 底部 的 一 层 或 两 层 的 任意 BST， 这 个 搜索 性 
能 可 以 得 到 保证 ， 并 且 有 很 多 这 样 的 BST， 因 而 我 们 在 维持 树 平衡 方面 有 一 些 灵 活 度 。 如 果 
我 们 满足 于 接近 最 优 的 树 ， 那 么 我 们 可 以 有 更 大 的 灵活 度 。 例 如 ， 有 大 量 高 度 少 于 21lgN 的 
BST。 如 果 我 们 放松 标准 但 要 保证 算法 只 构建 这 样 的 BST, 那么 就 可 以 针对 最 坏 情 况 提 供 保障 ， 
并 将 这 些 保障 用 于 动态 数据 结构 的 实际 应 用 中 。 作 为 一 种 附带 收益 ， 我 们 还 可 以 获得 更 好 的 
平均 性 能 情况 。 

在 BST 中 产生 更 好 平衡 的 一 种 方法 是 显 式 地 进行 周期 性 的 再 平衡 。 实 际 上 ， 我 们 可 以 通 
过 程序 13.1 所 示 的 递归 方法 ( 见 练习 13.4)， 在 线性 时 间 内 平衡 大 多 数 的 BST。 这 样 的 重新 平 
衡 操 作 很 可 能 改进 随机 关键 字 的 性 能 ， 但 并 不 能 保障 动态 符号 表 在 最 坏 情况 下 的 二 次 性 能 。 
一 方面 ， 在 重新 平衡 操作 之 间 插 入 一 系列 关键 字 ， 其 插入 时 间 可 能 随 着 插入 序列 的 长 度 呈 二 
次 递增 。 另 一 方面 ， 我 们 并 不 希望 经 常 性 地 平衡 巨大 的 树 ， 因 为 每 次 平衡 操作 至 少 都 要 花费 
基于 该 树 大 小 的 线性 时 间 。 这 种 性 能 上 的 折 中 使 得 我 们 难以 利用 全 局 重新 平衡 来 保障 动态 
BST 的 快速 性 能 。 我 们 要 考虑 的 所 有 算法 ， 当 它们 在 树 中 遍历 时 ， 都 在 进行 着 增长 而 又 局 部 
的 操作 ， 这 些 操作 集中 地 改进 了 整 棵 树 的 平衡 。 然 而 它们 从 不 像 程序 13.1 那 样 遍历 树 中 的 所 
有 节点 。 


图 13-1 一 棵 完美 平衡 的 大 型 BST 
注 : 这 棵 BST 的 外 部 节点 全 部 落 入 底部 两 层 ， 而 任何 搜索 的 比较 次 数 都 和 对 于 同一 关键 字 的 二 分 搜索 所 使 用 的 
比较 次 数 相同 〈 如 果 这 些 数据 项 都 位 于 一 个 有 序 的 数组 中 ) 。 平 衡 树 算法 的 目的 是 : 使 一 棵 BST 尽 可 能 地 接 
近 本 树 这 样 的 良好 平衡 状态 ， 同 时 依然 可 支持 高 效 的 动态 插入 、 删 除 和 其 他 的 字典 ADT 操 作 。 
0 1 ”| 程序 13.1 平衡 一 棵 BST i | 
这 个 递归 函数 使 用 程序 序 12. 14 中 的 划分 国 数 partR 把 BST 变 成 一 可 完美 平衡 树 。 通过 划分 把 
中 值 节 点 放 在 树 根 ， 然 后 (递归 地 ) 对 子 树 做 同样 的 事情 。 
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link balanceR(link h) 
区 
if (h->N < 2) return h; 
h = partR(h, h->N/2); 
h->1 = balanceR(h->1) ; 
h->r = balanceR(h->r); 
return h; 


} 


为 基于 BST 的 符号 表 的 实现 提供 可 保障 的 性 能 问题 ， 给 了 我 们 一 个 极 好 的 解决 方案 ， 就 
是 当 要 求 性 能 保障 时 ， 我 们 到 底 想 得 到 什么 。 我 们 将 会 看 到 这 个 问题 的 解决 方案 ， 它 们 分 别 
是 算法 设计 中 提供 性 能 保障 的 一 般 方法 的 三 种 范例 ， 随机 化 (randomize)、 平 推 (amortize ) 
或 优化 (optimize)。 我 们 现在 依次 分 析 每 一 种 方法 。 

随机 化 算法 把 随机 决策 引入 到 算法 自身 ， 大 大 降低 最 坯 情况 出 现 的 机 会 (无 论 输入 内 容 
是 什么 ) 。 在 快速 排序 中 使 用 随机 元 素 作 为 划分 元 素 时 ， 我 们 已 经 看 到 这 种 方法 的 一 个 范例 。 
在 13.1 节 和 13.5 节 中 ， 我 们 将 考察 随机 化 的 BST 和 跳跃 表 。 在 符号 表 的 实现 中 ， 它 们 是 使 用 随 
机 化 的 两 种 简单 方法 ， 能 够 给 出 符号 表 的 所 有 ADT 操 作 的 高 效 实现 。 这 些 算 法 简单 且 应 用 广 
泛 ， 却 在 数 十 年 中 未 被 人 们 发 现 ( 见 第 四 部 分 参考 文献 )。 证 明 这 些 算法 高 效 的 分 析 不 属于 基 
础 内 容 ， 但 这 些 算 法 易于 理解 、 实 现 和 投入 实际 应 用 。 

平 摊 方 案 每 次 做 额外 工作 ， 是 为 了 避免 以 后 做 更 多 工作 ， 这 种 方法 可 以 为 每 个 操作 的 平 
均 开 销 (所 有 操作 的 总 开销 除 以 操作 个 数 ) 提供 可 保障 的 上 界 。 在 13.2 节 中 ， 我 们 将 研究 伸 
展 BST， 它 是 BST 的 一 种 变型 ， 可 以 用 来 为 符号 表 提 供 可 保障 的 性 能 。 开 发 这 种 方法 是 平 摊 概 
念 发 展 的 一 种 推动 力 ( 见 第 四 部 分 参考 文献 )。 该 算法 是 我 们 在 第 12 章 讨论 的 根 插入 法 的 一 个 
直接 扩展 ， 但 证 明基 性 能 界限 的 分 析 十 分 复杂 。 

优化 方案 为 每 个 操作 提供 性 能 保障 。 已 经 开发 了 采用 这 种 方案 的 各 种 方法 ， 有 些 还 可 追 
漳 到 20 世 纪 60 年 代 。 这 些 方法 要 求 我 们 维护 树 的 某 些 结构 信息 ， 程 序 员 发 现 这 些 算法 的 实现 
是 件 十 分 恼人 的 事情 。 在 这 一 章 里 ， 我 们 将 考察 两 个 简单 的 抽象 ， 它 们 不 仅 使 实现 过 程 简单 ， 
还 可 使 开销 达到 接近 最 优 的 上 界 。 

在 分 别 利用 这 三 种 方案 ， 分 析 具 有 快速 性 能 保障 的 符号 表 之 后 ， 我 们 以 对 它们 的 性 能 进 
行 比 较 来 结束 本 章 的 讨论 。 除 了 由 每 种 算法 提供 的 性 能 保障 的 不 同性 质 所 表现 的 差别 外 ， 这 
些 方 法 各 自 附带 了 时 间或 空间 上 的 (相对 少量 的 ) 开销 ， 以 便 提 供 这 些 保障 ， 而 开发 一 个 真 
正 最 佳 的 平衡 树 ADT 依 然 是 一 个 研究 目标 。 但 我 们 在 本 章 研 究 的 算法 都 很 重要 ， 对 于 各 种 各 
样 的 应 用 ， 它 们 能 够 为 动态 符号 表 中 的 search 操 作 和 insert 操 作 (和 符号 表 ADT 的 几 个 其 他 操 
作 ) 提供 快速 实现 。 
练习 
o13.1 ”实现 一 个 使 BST 重 新 平衡 的 高 效 函 数 ， 要 求 节点 中 不 含 计数 域 。 
13.2 ”修改 程序 12.7 中 的 标准 BST 插 入 函数 ， 使 得 每 当 符 号 表 中 的 数据 项 数 达 到 2 的 次 方 时 ， 
就 利用 程序 13.1 来 重新 平衡 这 棵 树 。 对 于 以 下 任务 比较 你 的 程序 的 运行 时 间 和 程序 12.7 的 运行 
时 间 : (1) 从 N 个 随机 关键 字 构 建 一 棵 树 ， (2) 在 所 得 到 的 树 中 搜索 N 个 随机 关键 字 。 其 中 入 
= 103，104，105 和 105。 
13.3 ” 当 向 符号 表 中 插入 N 个 关键 字 的 一 个 递增 序列 时 ， 估 计 练 习 13.2 的 程序 所 使 用 的 比较 
次 数 。 
。13.4 对 于 一 棵 退化 树 ， 证 明 程序 13.1 的 运行 时 间 与 N lg N 成 正比 。 然 后 ， 给 出 该 树 的 一 个 尽 
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可 能 弱 的 条 件 ， 列 含 着 程序 在 线性 时 间 运 行 。 

13.5 ”修改 程序 12.7 中 的 标准 BST 播 和 函数。 对 于 遇 到 的 任意 节点 ， 使 得 以 它 为 中 值 进 行 的 划 
分 操作 ， 得 到 其 子 树 中 有 少 于 1/4 的 节点 。 对 于 以 下 任务 比较 你 的 程序 的 运行 时 间 和 程序 12.7 
的 运行 时 间 ; (1) 从 N 个 随机 关键 字 构 建 一 棵 树 ，(2) 在 所 得 到 的 树 中 搜索 N 个 随机 关键 字 。 
其 中 N= 103，104，105 和 105。 

13.6” 当 向 符号 表 中 插入 N 个 关键 字 的 一 个 递增 序列 时 ， 估 计 练 习 13.5 的 程序 所 使 用 的 比较 
次 数 。 

“13.7 扩展 练习 13.5 中 的 实现 ， 使 用 与 delete 函 数 相同 的 方法 进行 重新 平衡 。 进 行 实验 分 析 ， 
确定 在 一 棵 N 个 节点 的 随机 树 中 ， 交 赫 进 行 随 机 插入 操作 和 删除 操作 的 长 序列 ， 树 的 高 度 是 否 
增长 ， 其 中 N= 10，100 和 1000。 对 于 每 个 NY， 要 求 达到 N? 次 的 插入 一 删除 对 操作 。 


13.1 随机 化 BST 


为 了 分 析 二 又 搜索 树 的 平均 情况 开销 性 能 ， 我 们 做 出 以 下 假设 : 按照 随机 次 序 插入 数据 
项 ( 见 12.6 节 )。 在 BST 的 环境 中 ,该 假设 的 主要 结果 是 树 中 的 每 个 节点 成 为 树 根 的 可 能 性 相 
等 ， 并 且 这 个 性 质 对 于 子 树 仍然 成 立 。 值 得 注意 的 是 ， 有 可 能 在 算法 中 引入 随机 性 ， 使 得 这 
个 性 质 不 依赖 于 假设 ， 即 与 数据 项 插入 的 顺序 无 关 。 思 想 很 简单 ; 当 我 们 把 一 个 新 节点 插入 
到 N 个 节点 的 树 中 时 ， 新 节点 出 现在 树 根 的 概率 是 1/(N+1)， 因 而 我 们 就 随机 决定 用 这 个 概率 
进行 根 插入 。 否 则 ， 我 们 递归 地 使 用 下 述 方法 插入 新 记录 ;如果 该 记录 的 关键 字 小 于 树 根 的 
关键 字 ， 就 把 该 记录 插入 到 左 子 树 中 ， 如 果 该 记录 的 关键 字 大 于 树 根 的 关键 字 ， 就 把 该 记录 
插入 到 右 子 树 中 。 程 序 13.2 是 这 种 方法 的 一 种 实现 。 
程序 13.2 随机 化 BST 插 入 J 
这 个 函数 随机 决定 是 使 用 程序 12.12 中 的 根 插入 法 ， 还 是 程序 12.7 中 的 标准 插入 方法 。 在 
随机 BST 中 ， 每 个 节点 位 于 树 根 的 概率 相等 ， 因 此 通过 把 一 个 新 节点 放 到 大 小 为 N 个 节点 的 树 
的 根 处 的 概率 为 1/(N+1) 而 得 到 若干 棵 随机 树 。 
link insertR(link h, Item item) 
{ Key v = key(item), t = key(h->item); 
if (h == 2Z) return NEW(item, z, z, 1); 
if (rand()< RAND_MAX/(h->N+1)) 
return insertT(h, item); 
if less(v, t) h->1 = insertR(h->1, item); 
else h->r = insertR(h->r, item); 
(h->N)++; return h; 
} 
void STinsert(Item item) 
{ head = insertR (head, item); } 


从 非 递 归 的 角度 来 看 ， 进 行 随机 插入 相当 于 对 该 关键 字 执 行 一 次 标准 搜索 ， 在 每 一 步 都 
随机 决定 应 该 继续 搜索 ， 还 是 终止 搜索 并 进行 根 插入 。 因 此 ， 新 节点 可 能 插入 到 搜索 路 径 上 
的 任何 地 方 ， 如 图 13-2 所 示 。 从 概率 的 意义 上 来 说 ,标准 BST 算 法 和 根 插入 法 的 简单 概率 结合 
提供 了 性 能 保障 。 

性 质 13.1 ”构造 一 棵 随机 BST 等 价 于 从 关键 字 的 一 个 随机 初始 排列 构造 一 棵 标准 BST。 使 
用 大 约 2N ln 六 次 比较 来 构造 一 棵 具有 人 N 个 数据 项 的 随机 BST (与 数据 项 插入 的 顺序 无 关 ) ， 且 
在 这 样 一 棵 树 中 进行 搜索 大 约 需要 2 In N 次 比较 。 
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每 个 元 素 成 为 树 根 的 概率 相同 ， 这 个 性 质 对 于 子 树 同样 成 立 。 由 构造 过 程 可 得 ， 命 题 的 
第 一 部 分 为 真 ， 但 需要 进行 仔细 的 概率 论证 过 程 来 表明 根 插入 法 在 子 树 中 保持 了 随机 性 ( 见 
第 四 部 分 参考 文献 )。 国 





图 13-2 随机 BST 中 的 插入 


注 : 在 一 个 随机 BST 中 ， 一 个 新 记录 的 最 终 位 置 可 能 在 记录 的 搜索 路 径 上 的 任何 地 方 ， 这 取决 于 搜索 过 程 中 所 
做 的 随机 判定 的 结果 。 这 个 图 显示 了 关键 字 为 上 的 记录 播 入 到 一 棵 样本 树 (上 图 ) 中 每 个 可 能 的 位 置 。 

随机 化 BST 和 标准 BST 在 平均 情况 下 的 性 能 差别 很 小 ， 但 却 是 本 质 上 的 。 平 均 开销 相同 
(随机 树 中 所 含 的 常数 因子 稍 大 些 ) ， 但 对 于 标准 树 而 言 ， 该 结果 取决 于 假设 : 对 于 插入 操作 ， 
数据 项 是 按照 它们 的 关键 字 的 随机 顺序 出 现 的 (所 有 顺序 等 概率 出 现 )。 这 一 假设 在 很 多 实际 
应 用 中 是 无 效 的 。 因 此 ， 随 机 化 算法 的 重要 意义 在 于 它 允 许 我 们 撤销 该 假设 ， 并 改 为 依赖 概 
率 定律 和 随机 数 生 成 器 的 随机 性 。 如 果 数 据 项 插入 时 它们 的 关键 字 为 有 序 、 逆 序 或 者 依照 其 
他 任何 次 序 ，BST 仍 然 是 随机 的 。 图 13-3 描 述 了 为 一 个 关键 字样 本 集合 构造 一 标 随 机 化 树 的 过 
程 。 因 为 算法 做 出 的 决策 是 随机 化 的 ， 每 次 我 们 运行 这 个 算法 ， 得 出 的 树 序 列 都 可 能 不 同 。 
图 13-4 显 示 了 一 棵 随机 化 树 ， 它 由 一 个 关键 字 按 照 递增 顺序 排列 的 数据 项 集 构造 ， 但 显示 出 
和 一 棵 由 随机 有 序数 据 项 所 构造 的 标准 BST 拥 有 相同 的 性 质 (比较 图 12-8)。 

对 于 每 次 机 会 ， 随 机 数 生成 器 仍然 可 能 导致 错误 的 决策 ， 由 此 得 到 极 不 平衡 的 树 ， 但 我 
们 可 以 进行 数学 分 析 ， 并 证 明 这 种 情况 几乎 不 可 能 出 现 。 

性 质 13.2 一 棵 随机 化 BST 的 构造 开销 大 于 平均 水 平 a 倍 的 概率 小 于 e“。 
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Karp 在 1995 年 开发 出 一 个 针对 概率 递归 关系 的 一 般 解 决 方案 ， 它 蕴含 着 性 质 13.2 的 结论 
和 其 他 具有 相同 特性 的 类 似 结论 ( 见 第 四 部 分 参考 文献 )。 图 





图 13-3 随机 BST 的 构造 


注 : 这 个 图 序列 描述 了 把 关键 字 A B C D EF G H I 随机 桥 入 到 初始 为 空 的 BST 中 的 过 程 。 底 部 的 树 使 用 标准 
BST 算 法 构造 的 ， 关 键 字 是 按 随机 顺序 插入 的 。 | 


图 13-4 大 型 随机 BST 
注 : 这 个 BST 是 使 用 随机 插入 法 ， 把 200 个 递增 顺序 的 关键 字 插 入 到 初始 为 空 的 树 中 所 得 的 结果 。 这 棵 树 看 起 来 
像 是 由 随机 次 序 的 关键 字 构 成 〈 见 图 12-8) 。 
例如 ， 构 造 一 棵 含 100 000 个 节点 的 随机 化 BST 大 约 需 要 230 万 次 的 比较 操作 ， 但 比较 次 数 
超过 2300 万 的 概率 远 远 小 于 0.01%。 对 于 满足 处 理 这 样 大 小 的 真实 数据 集合 的 实际 要 求 ， 这 样 
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一 个 性 能 保障 是 绰绰有余 的 。 当 对 这 样 的 任务 使 用 标准 BST 时 ， 我 们 不 能 提供 如 此 一 个 保障 ， 
例如 ， 如 果 数 据 中 存在 显著 的 顺序 关系 ， 我 们 将 要 面 对 性 能 上 的 问题 。 这 种 情况 在 随机 数据 
中 不 大 可 能 出 现 ， 但 由 于 很 多 原因 ， 它 在 真实 数据 中 的 出 现 却 是 寻常 的 问题 。 

根据 同样 的 论证 ， 一 个 类 似 性 质 13.2 的 结论 对 于 快速 排序 的 运行 时 间 同 样 成 立 。 但 该 结论 
在 这 里 更 重要 ， 因 为 它 还 意味 着 树 的 搜索 操作 开销 接近 于 平均 情况 。 不 考虑 构造 这 棵 树 的 额 
外 开销 ， 我 们 可 以 利用 标准 BST 实 现 完 成 搜索 操作 ， 所 需 开 销 只 依赖 于 树 的 形状 ， 并 且 平 衡 
处 理 根本 不 需要 额外 开销 。 在 搜索 操作 的 次 数 远 远 多 于 其 他 任何 操作 次 数 的 典型 应 用 中 ， 以 
上 性 质 就 很 重要 了 。 例 如 ， 在 上 一 段 中 描述 的 100 000 个 节点 的 BST 可 能 保存 一 个 电话 目录 ， 
可 能 用 于 数 百 次 的 搜索 。 我 们 几乎 可 以 肯定 ， 每 次 搜索 的 开销 都 在 23 次 比较 的 平均 开销 的 一 
个 小 常数 因子 内 ， 而 且 对 于 实际 用 途 ， 我 们 不 必 担 忧 大 量 搜索 操作 将 耗费 接近 100 000 次 比较 
的 可 能 性 。 而 用 标准 BST， 我 们 就 要 关注 这 个 问题 了 。 

随机 化 插入 的 一 个 主要 缺点 体现 在 每 次 插入 期 间 每 个 节点 生成 随机 数 的 开销 。 一 个 高 质 
量 的 系统 支持 随机 数 生 成 器 ， 也 许 会 尽力 使 产生 的 伪 随 机 数 具 有 比 随机 化 BST 所 要 求 的 更 好 
的 随机 性 。 所 以 在 某 些 实际 环境 中 〈 例 如 ， 若 数据 项 次 序 随 机 这 个 假设 是 有 效 的 ) ， 构 造 一 株 
随机 化 BST 也 许 比 构造 一 棵 标准 BST 更 慢 。 正 如 对 快速 排序 所 做 的 那样 ， 我 们 可 以 使 用 不 那么 
完美 的 随机 数 来 降低 开销 ， 但 它们 的 生成 成 本 低 且 高 度 类 似 于 ， 对 于 在 实际 应 用 中 可 能 出 现 
的 关键 字 插 入 序列 ， 能 够 避免 BST 在 最 坯 情况 下 出 现 较 差 的 性 能 的 随机 数 〈 见 练习 13.14) 。 

随机 化 BST 的 另 一 个 潜在 缺点 是 ， 每 个 节点 需要 有 一 个 域 用 于 记录 该 节点 的 子 树 的 节点 
个 数 。 这 个 域 所 占用 的 额外 空间 可 能 成 为 大 型 树 的 一 个 缺陷 。 另 一 方面 ， 正 如 我 们 在 12.9 节 
讨论 的 那样 ， 这 个 域 存在 的 必要 性 也 许 是 出 于 其 他 原因 一 一 例如 支持 select 操 作 ， 或 者 提供 对 
数据 结构 完整 性 的 一 个 效 验 。 在 这 种 情况 下 ， 随 机 化 的 BST 不 会 导致 额外 的 空间 开销 ， 是 一 
个 极 具 吸 引力 的 选择 方案 。 

在 树 中 保持 随机 性 的 基本 指导 性 原则 还 导致 了 另 一 个 结果 : 这 就 是 在 仍然 产生 随机 树 时 ， 
高 效 地 实现 了 delete、join 和 其 他 符号 表 ADT 的 操作 。 

为 了 将 一 棵 N 节 点 的 树 与 一 棵 1M 节 点 的 树 进行 连接 ， 我 们 使 用 第 12 章 中 的 基本 方法 ， 差 别 
在 于 我 们 基于 推论 : 组 合 树 的 树 根 必定 根据 以 概率 N/(M+N) 来 自 NN 节点 的 树 ， 以 概率 M/CM+N) 
来 自 M 和 节点 的 树 ， 来 作出 随机 化 选择 确定 树 的 慨 。 程序 13.3 是 这 个 操作 的 一 种 实现 。 


“程序 13.3 随机 化 BST 组 合 


这 个 函数 使 用 了 和 程序 12.6 同 样 的 方法 ， 不 同 之 处 在 于 ， 它 使 用 随机 化 决策 而 非 任意 决策 
来 确定 组 合 树 中 使 用 哪个 节点 作为 树 根 ， 且 使 每 个 节点 成 为 树 根 的 概率 相等 。 函 数 fixN 使 
b->N 更 新 为 子 树 中 对 应 域 的 总 和 加 1 (对 于 空 树 则 加 0)。 

link joinR(link a, link b) 

{ 
if (a == Z) return b; 
b = insertR(b, a->item); 
b->1 = STjoin(a->1, b->1); 
b~>r = STjoin(a->r, b->r); 
fixN(b); free(a); 
return b; 

} 

link STjoin(link a, link b) 


if (rand()/(RAND_MAX/(a->N+b->N)+1) < a->N) 
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joinR(a, b); 
else joinR(b, a); 
} 





用 同样 的 方法 ， 我 们 在 delete 算 法 中 用 随机 化 代替 任意 决策 ， 如 程序 13.4 所 示 。 这 种 方法 
对 应 着 一 个 我 们 在 删除 标准 BST 的 节点 时 没有 考虑 使 用 的 选择 ， 因 为 车 缺少 随机 化 操作 ， 删 
除 操作 似 子 将 声 生 不 平衡 的 树 ( 见 练习 13 21)。 


ss 程序 13.4 随机 BST 中 删除 : [a 

我 们 使 用 针对 标准 BST 所 用 的 同样 的 STdelete 函 数 ( 见 程序 12.15) ， 但 用 这 里 显示 的 一 

个 函数 代 夫 joinLR 函 数 。 这 里 显示 的 函数 中 ， 使 用 随机 化 决策 而 不 是 任意 决策 来 确定 是 用 被 

删除 节点 的 前 驱 还 是 后 继 来 代替 这 个 被 删除 的 节点 ， 所 使 用 的 概率 保证 结果 树 中 的 每 个 节点 

等 概率 成 为 树 根 。 为 了 正确 地 维护 节点 计数 ， 我 们 还 需要 在 从 removeR 返 回 之 前 ， 引 入 对 h 的 
一 个 调用 fixN 〈 见 程序 13.3) 。 


link joinLR(link a, link b) 


if (a == 2) return b; 
if (b == Z) return a; 
if (rand()/(RAND._MAX/ (a->N+b->N)+1) < a->N) 
{ a->r = joinLR(a->r, b); return a; } 
else { b->1 = joinLR(a, b->1); return bi } 
} 


性 质 13.3 ”由 随机 化 插入 、 删 除 和 连接 操作 组 成 的 一 个 任意 序列 来 生成 一 棵 树 ， 等 价 于 从 
该 树 关 键 字 的 一 个 随机 排列 建立 一 棵 标准 BST。 
正如 对 性 质 13.1 那 样 ， 需 要 一 个 仔细 的 概率 论证 过 程 来 确立 这 个 结论 ( 见 第 四 部 分 参考 
文献 ) 。 国 
证 明 关于 概率 算法 的 事实 要 求 对 概率 论 有 很 好 的 了 解 ， 但 对 于 使 用 该 算法 的 程序 员 ， 则 
不 一 定 要 理解 这 些 证 明 。 认 真 的 程序 员 将 会 检查 像 性 质 13.3 这 样 的 要 求 〈 例 如 检查 随机 数 生 
成 器 的 质量 , 或 该 实现 的 其 他 性 质 )， 无 论 它们 怎样 被 证 明 ， 都 可 以 充满 信心 地 使 用 这 些 方法 。 
对 于 支持 完整 的 、 具 有 接近 最 佳 性 能 保障 的 符号 表 ADT 来 说 ， 随 机 化 BST 也 许 是 最 容易 的 方 
法 ， 因 此 它们 也 适用 于 许多 实际 应 用 。 
练习 
>13.8” 画 出 按照 以 下 顺序 向 一 棵 初始 为 空 的 树 中 插入 带 有 关键 字 E A S Y Q U TIO N 的 数据 
项 所 得 的 随机 化 BST。 假 设 在 树 大 小 为 奇数 时 ， 根 插入 法 产生 一 个 不 好 的 随机 化 函数 。 
13.9 ”编写 一 个 驱动 程序 ， 对 于 N = 10 和 1000 进 行 1000 次 以 下 实验 。 使 用 程序 13.2 把 关键 字 在 
0 到 N 一 1 ( 按 此 顺序 ) 的 数据 项 插入 到 初始 为 空 的 随机 BST 中 。 然 后 对 于 每 个 N 打 印 出 对 以 下 
假设 的 x 统计 ， 每 个 关键 字 以 概率 1/N 落 入 树 根 ( 见 练习 14.5)。 
013.10 给 出 F 落 在 图 13-2 所 描述 的 每 个 位 置 上 的 概率 。 
13.11 ”编写 一 个 程序 ， 对 于 搜索 路 径 上 的 每 个 节点 ， 计 算 一 次 随机 插入 结束 在 一 棵 给 定 树 的 
内 部 节点 上 的 概率 。 
13.12 编写 一 个 程序 ， 计 算 一 次 随机 插入 结束 在 一 棵 给 定 树 的 外 部 节点 上 的 概率 。 
513.13 ”实现 程序 13.2 的 随机 插入 函数 的 一 个 非 递归 版 本 。 
13.14 画 出 按照 以 下 顺序 向 一 棵 初始 为 空 的 树 中 插 人 带 有 关键 字 BE A S Y QU TIO N 的 数据 
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项 所 得 的 随机 化 BST。 要 求 使 用 程序 13.2 中 的 版 本 ， 且 用 测试 语句 (111 % h->N) == 3 代替 包 
含 rand( ) 的 表达 式 ， 来 确定 是 否 切 换 到 根 插入 法 。 

13.15 利用 程序 13.2 的 一 个 版 本 做 练习 13.9， 要 求 用 测试 语句 (111 % h->N) == 3 代替 包含 
rand( ) 的 表达 式 ， 来 确定 是 否 切换 到 根 插 入 法 。 

13.16 显示 随机 决策 序列 ， 该 序列 导致 把 关键 字 序 列 E A S Y Q UT IO N 构 造成 为 一 棵 退化 
树 (关键 字 有 序 ， 且 左 链接 为 空 ) 。 这 种 情况 发 生 的 概率 是 多 少 ? 

13.17 ” 当 把 关键 字 E ASYQUTION 插 入 到 初始 为 空 的 树 中 时 ， 包 含 这 些 关 键 字 的 每 棵 
BST 都 能 由 某 个 随机 决策 序列 得 到 吗 ? 解释 你 的 答案 。 

13.18 ”通过 实验 研究 ， 把 N 个 随机 关键 字 播 人 到 初始 为 空 的 树 中 来 构造 一 棵 随机 BST ， 计 算 
在 这 棵 树 中 搜索 命中 和 搜索 失败 所 用 的 比较 次 数 的 平均 值 和 标准 差 ， 其 中 N = 10 ，10'，10” 
和 105。 

>13.19 ” 画 出 使 用 程序 13.4 删 除 练习 13.14 中 的 Q 后 的 BST， 要 求 使 用 测试 语句 (111 % (a->N + 
b-> N))《 a->N 来 决定 是 否 在 树 根 处 和 a 连接 。 

13.20 ”和 画 出 把 带 有 关键 字 E A S Y 的 数据 项 插入 到 初始 为 空 的 树 中 ， 把 带 有 关键 字 Q UEST 
IO N 的 数据 项 插入 到 初始 为 空 的 另 一 棵 树 中 ， 然 后 使 用 带 有 练习 13.19 中 所 描述 的 测试 语句 的 
程序 13.3 把 它们 组 合 起 来 。 

13.21 画 出 把 带 有 关键 字 E A S Y Q U T 1O N 的 数据 项 按照 这 个 顺序 插入 到 初始 为 空 的 树 
中 ， 然 后 使 用 程序 13.4 删 除 Q 后 的 结果 ， 采 用 一 个 总 是 返回 0 的 不 良 随机 化 函数 所 构成 的 BST。 
13.22 ”进行 实验 分 析 ， 在 一 棵 N 个 节点 的 树 中 ， 分 别 使 用 程序 13.2 和 程序 13.3， 交 替 进 行 随 
机 插入 操作 和 删除 操作 的 长 序列 ，BST 的 高 度 是 如 何 增长 的 ?其 中 N = 10，100 和 1000。 对 于 
每 个 N， 要 求 达 到 入 ?次 的 插入 一 删除 对 操作 。 

o13.23 ”比较 你 从 练习 13.22 所 得 结果 和 从 下 面 过 程 所 得 结果 : 利用 程序 13.2 和 程序 13.3 对 一 棵 
N 个 节点 的 随机 树 执行 删除 最 大 关键 字 ， 并 重新 插入 该 关键 字 的 操作 ， 其 中 和 NN = 10，100 和 
1000。 对 于 每 个 N 要 求 达 到 入 次 的 插入 一 删除 对 操作 。 

13.24 ”以 你 从 练习 13.22 所 得 程序 为 工具 ， 确 定 对 于 每 个 被 删除 的 数据 项 ，rand( ) 的 平均 调 
用 次 数 。 


13.2 伸展 BST 


在 12.8 节 的 根 插入 法 中 ， 我 们 使 用 左旋 转 和 右 旋转 完成 了 把 一 个 新 播 入 的 节点 带 到 树 根 的 
主要 目标 。 在 这 一 节 里 ， 我 们 研究 如 何 修改 根 插入 法 ， 使 旋转 在 茶 种 意义 上 也 能 使 树 平衡 。 

我 们 不 考虑 (递归 地 ) 使 用 单个 旋转 把 新 插入 的 节点 带 到 树 的 顶部 ， 而 是 考虑 通过 两 次 
旋转 操作 ， 把 节点 从 作为 树 根 的 孙子 节点 之 一 的 一 个 位 置 带 到 树 的 顶部 。 首 先 ， 我们 执行 一 
次 旋转 ， 使 该 节点 成 为 根 的 一 个 孩子 节点 。 接 着 ， 进 行 另 一 次 旋转 ， 使 它 成 为 根 。 根 据 从 根 
到 所 插入 节点 的 两 个 链接 是 否 以 相同 方式 定向 ， 存 在 两 种 本 质 上 不 同 的 情况 。 图 13-5 显 示 了 
方向 不 同 的 情况 ， 图 13-6 的 左 图 显示 的 是 方向 相同 的 情况 。 伸 展 BST 是 基于 这 样 的 观察 : 当 从 
根 到 被 插入 节点 的 链接 按照 相同 的 方式 定向 时 ， 存 在 另 一 种 可 选 的 处 理 方案 ， 就 是 简单 地 在 
根 节点 处 进行 两 次 旋转 ， 就 像 图 13-6 中 的 右 图 所 示 的 那样 。 

伸展 插入 利用 图 13-5 ( 当 搜 索 路 径 上 从 根 到 孙子 节点 的 链接 都 有 不 同 的 定向 时 ， 使 用 标 
准 根 插入 法 ) 和 图 13-6 中 的 右 图 ( 当 搜 索 路 径 上 从 根 到 孙子 节点 的 链接 都 有 相同 的 定向 时 ， 
在 根 处 进行 两 次 旋转 ) 所 示 的 变换 把 新 插入 的 节点 带 到 根 。 用 这 种 方法 所 构造 的 BST 是 伸展 
BST (splay BST)。 程 序 13.5 是 伸展 插入 的 一 种 递归 实现 。 图 13-7 描 述 了 单个 插入 的 一 个 例子 。 
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图 13-8 显 示 了 一 棵 示例 树 的 构造 过 程 。 伸 展 插入 和 标准 根 插入 的 不 同 之 处 显得 不 太 合理 ， 但 
却 是 很 有 意义 的 : 伸展 操作 消除 了 最 坏 情 况 下 的 二 次 时 间 ， 这 正 是 标准 BST 的 主要 缺陷 。 





图 13-5 在 BST 中 (不同 定向 ) 进行 双重 旋转 


注 : 在 这 棵 示例 树 〈 上 图 ) 中 ， 在 G 处 左旋 转 后 接着 在 世 处 进行 一 个 右 旋转 ， 把 I 带 到 根 处 〈 下 图 ) 。 这 些 旋转 可 
能 完成 一 哥 标 准 BST 或 伸展 BST 的 根 插 入 过 程 。 





图 13-6 在 BST 中 (相同 定向 ) 进行 双重 旋转 


注 : 当 双 重 旋转 中 的 两 个 链接 定向 在 同一 方向 时 ,我 们 有 两 种 选择 。 使 用 标准 根 插入 法 ， 我 们 优先 执行 较 低 旋 
转 〈 左 图 ) ; 使 用 伸展 插入 ， 我们 优先 执行 较 高 旋转 ( 右 图 )。 
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图 13-7 伸展 插入 图 13-8 伸展 BST 构 造 
注 : 该 图 描述 了 使 用 伸展 根 插入 法 ， 把 带 有 关键 字 D 的 注 : 这 个 序列 描述 了 使 用 伸展 插入 法 ， 把 带 有 关键 字 A S 
记录 插入 到 示例 树 的 顶部 的 过 程 。 在 这 个 例子 中 ， ERCHING 的 记录 插入 到 初始 为 空 的 树 中 的 过 程 。 


插入 过 程 由 一 个 左 一 右 双重 旋转 接着 一 个 右 一 右 双 
重 旋 转 组 成 (从 上 图 开始 )。 


程序 13.5 BST 中 的 伸展 插入 . 

这 个 函数 与 程序 12.12 中 的 根 插入 算法 的 不 同 之 处 在 于 一 个 本 质 上 的 细节 :如果 搜 索 路 径 
进行 左 - 左 或 右 - 右 ， 就 通过 一 个 从 顶部 而 不 是 从 底部 开始 的 双重 旋转 ， 把 节点 带 到 根 处 〈 见 
图 13-6) 。 

程序 检查 从 根 开始 的 搜索 路 径 上 的 两 步 的 四 种 可 能 性 ， 并 执行 相应 的 旋转 操作 

左 - 左 : 在 根 处 右 旋 转 两 次 。 

左 一 右 : 在 左 孩子 进行 左旋 转 ， 然 后 在 根 进行 右 旋 转 。 

右 -- 右 : 在 根 处 左旋 转 两 次 。 
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右 - 左 ; 在 右 孩 子 进 行 右 旋 转 ， 然 后 在 根 进行 左旋 转 。 
为 了 节省 篇 幅 ， 我 们 使 用 宏 ， 因 而 可 用 h1 代 替 h->1，hr1 代 替 h~>r->1， 以 此 类 推 。 
link splay(link h, Item item) 
{ Key v = key(item); 
if (h == Z) return NEW(item, z, 2z, 1); 
if (less(v, key(h->item))) 
{ 
if (hl == 2z) return NEW(item, z, h, h~->N+1); 
if (less(v, key(hl->item))) 
{ hil = splay(hll, item); h = rotR(h); } 
else 


{ hlr = splay(hilr, item); hl = rotL(h1); } 
return rotR(h); 


else 
{ 
if (hr == 2) return NEW(item, h, z, h->N+1); 
if (less(key(hr->item), v)) 
{ hrr = splay(hrr, item); h = rotL(h); } 
else 


{ hrl = splay(hrl, item); hr = rotR(hr):; } 
return rotL(h); 
了 
} 
void STinsert(Item item) 
{ head = splay (head, item); } 


性 质 13.4 “在 一 棵 初始 为 空 的 树 中 执行 N 次 插入 操作 所 构造 的 伸展 BST， 需 要 的 比较 次 数 
为 O(N lg N)。 

这 个 界限 是 性 质 13.5 的 一 个 推论 ， 也 是 我 们 稍 后 分 析 的 一 个 性 质 。 国 

隐 含 在 大 0 表示 法 中 的 常数 是 3。 例 如 ， 使 用 伸展 播 和 法， 构造 一 棵 100 000 个 节点 的 BST 
所 使 用 的 比较 次 数 少 于 5 百 万 。 这 个 结果 并 不 能 保证 结果 搜索 树 的 平衡 态 很 好 ， 也 不 能 保证 每 
次 操作 都 是 高 效 的 ， 但 是 这 个 关于 总 运行 时 间 的 幼 涵 保证 是 很 有 意义 的 ， 且 我 们 在 实际 中 观 
察 到 的 实际 运行 时 间 很 可 能 还 低 。 

当 我 们 使 用 伸展 播 入 法 向 BST 中 播 入 一 个 节点 时 ， 我 们 不 仅 要 把 那个 节点 带 到 根 处 ， 而 
且 要 把 我 们 (在 搜索 路 径 上 ) 遇 到 的 其 他 节点 带 到 根 的 附近 。 准 确 地 说 ， 我 们 所 进行 的 旋转 
将 从 根 到 任何 我 们 遇 到 的 节点 的 距离 降低 了 一 半 。 如 果 我 们 实现 搜索 操作 ， 在 搜索 中 进行 伸 
展 变换 ， 这 个 性 质 也 成 立 。 树 中 的 某 些 路 径 会 变 长 一 些 。 如 果 我 们 不 访问 那些 路 径 上 的 节点 ， 
这 个 影响 是 无 关 紧 要 的 。 如 果 确 实 要 访问 一 条 较 长 路 径 上 的 节点 ， 在 我 们 这 样 做 之 后 ， 路 径 
长 度 就 会 变 成 原来 的 一 半 ， 因 此 没有 路 径 能 累计 产生 高 额 开 销 。 

性 质 13.5 ”在 一 哥 N 个 节点 的 伸展 BST 中 ， 执 行 M 次 插入 或 搜索 操作 的 序列 所 要 求 的 比较 
次 数 为 O(N + M) lg (N+ M))。 

这 个 结果 的 证 明 是 由 Sleator 和 Tarjan 在 1985 年 给 出 的 ， 它 是 算法 平反 分析 的 一 个 经 典 例子 
( 见 第 四 部 分 参考 文献 )。 我 们 将 在 第 八 部 分 详细 考察 。 十 

性 质 13.5 是 一 个 平 摊 性 能 保障 : 我 们 不 能 保证 每 个 操作 都 是 高 效 的 ， 但 是 能 保证 所 有 操作 
的 平均 开销 是 高 效 的 。 这 个 平均 开销 不 是 概率 上 的 ， 相 反 ， 我 们 声明 可 以 保证 总 开销 量 较 低 。 
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对 于 很 多 应 用 问题 ， 这 个 保证 就 足够 了 。 而 对 某 些 其 他 应 用 这 种 保证 可 能 还 不 够 。 例 如 ， 在 
使 用 伸展 BST 时 ， 我 们 不 能 为 每 次 操作 提供 可 保证 的 响应 时 间 ， 因 为 某 些 操作 可 能 需要 线性 
时 间 。 如 果 一 个 操作 确实 需要 线性 时 间 ， 那 么 我 们 可 以 保证 其 他 的 操作 会 快 些 ， 但 对 于 必须 
等 待 的 用 户 ， 这 也 许 起 不 了 任何 安奈 作用 。 

性 质 13.5 给 出 的 界限 是 对 于 所 有 操作 总 开销 的 一 种 最 坏 情况 下 的 界限 。 它 也 许 比 实际 开销 
高 出 许多 ， 这 正 是 最 坏 情 况 界 限 的 典型 特征 。 伸 展 操作 使 最 近 访 问 的 元 素 更 接近 树 的 顶部 ， 
因此 ， 对 于 共有 非 均匀 访问 模式 的 搜索 应 用 一 特别 是 相对 较 小 〈 即 使 更 新 速度 很 慢 ) 的 访问 
数据 项 的 应 用 ， 这 种 方法 极 具 吸 引力 。 

图 13-9 给 出 的 两 个 示例 显示 了 “伸展 一 旋转 ”操作 在 使 树 平衡 过 程 中 的 高 效 性 。 在 这 些 
图 中 ， 通 过 少量 的 搜索 操作 ， 一 棵 退化 树 (通过 把 数据 项 按照 其 关键 字 次 序 插入 而 构造 的 树 ) 
就 拥有 了 相对 较 好 的 平衡 状态 。 


// 
7 


图 13-9 使 用 搜索 平衡 一 棵 最 坏 情况 下 的 伸展 树 


注 : 使 用 伸展 插入 法 按照 排序 后 的 顺序 把 关键 字 插 入 到 初始 为 空 的 树 中 ， 每 次 插入 只 需 常数 步 ， 但 得 到 一 棵 不 
平衡 的 树 ， 如 上 图 中 的 左 图 和 右 图 所 东 。 左 边 的 图 序列 表示 (用 伸展 ) 搜索 树 中 最 小 、 次 小 、 第 三 小 、 第 
四 小 关键 字 的 结果 。 每 次 搜索 使 搜索 关键 字 (及 树 中 其 他 多 数 的 关键 字 ) 的 路 径 长 度 减 半 。 右 边 的 图 序列 
显示 了 一 祥 的 最 坏 情况 下 的 初始 树 ， 一 个 随机 搜索 命中 序列 使 之 平衡 。 每 次 搜索 使 其 路 径 上 的 节点 数 减 半 ， 
降低 了 树 中 其 他 很 多 节点 的 搜索 路 径 长 度 。 综 合 来 看 ， 少 量 的 搜索 可 以 大 大 改进 树 的 平衡 。 
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如 果 在 树 中 保存 了 重复 关键 字 ， 那 么 对 于 给 定 节点 中 的 关键 字 ， 伸 展 操 作 可 以 使 包含 相 
同 关键 字 的 数据 项 落 入 该 节点 的 两 边 〈 见 练习 13.38) 。 这 个 观察 说 明 ， 不 能 像 在 标准 二 又 搜 
索 树 中 那样 找到 带 有 给 定 关键 字 的 所 有 数据 项 。 我 们 必须 在 两 棵 子 树 中 都 检查 重复 情况 ， 或 
者 像 第 12 章 讨论 的 那样 ， 利 用 一 些 其 他 方法 处 理 重 复 的 关键 字 。 
练习 

>13.25 画 出 使 用 伸展 插入 法 ， 按 照 以 下 顺序 向 一 覃 初始 为 空 的 树 中 插入 带 有 关键 字 E A S Y 
QU TIO N 的 数据 项 所 得 的 伸展 BST。 

>13.26 ”对 于 一 次 双重 旋转 ， 需要 修改 多 少 个 树 的 链接 ? 对 于 程序 13.5 中 的 每 个 双重 旋转 实际 
需要 修改 多 少 个 树 的 链接 ? 

13.27 ”使 用 伸展 ， 在 程序 13.5 中 增加 一 个 search 实 现 。 

co13.28 在 程序 13.5 中 ， 实 现 伸展 插入 函数 的 一 个 非 递归 版 本 。 

13.29 ”使 用 练习 12.28 中 的 驱动 程序 来 确定 伸展 BST 作 为 自 组 织 搜索 结构 的 高 效 性 ， 通 过 在 练 
习 12.29 和 练习 12.30 所 定义 的 搜索 查询 分 布 ， 与 标准 BST 进 行 比较 来 说 明 这 种 高 效 性 。 

9013.30 画 出 使 用 伸展 插入 法 把 N 个 关键 字 揪 入 到 初始 为 空 的 树 中 得 到 的 所 有 结构 上 不 间 的 
BST, 2<N<7。 

。13.31 求 出 练习 13.30 中 把 N 个 随机 不 同 元 素 插入 到 初始 为 空 的 树 中 所 得 到 的 每 棵 树 出 现 的 
概率 。 

013.32 通过 实验 研究 ， 使 用 伸展 插入 法 把 N 个 随机 关键 字 插 入 到 初始 为 空 的 树 中 来 构造 一 棵 
BST， 计 算 在 这 棵 树 中 搜索 命中 和 搜索 失败 所 用 的 比较 次 数 的 平均 值 和 标准 差 ， 其 中 N = 103， 
10*，105 和 105。 你 不 需要 进行 任何 搜索 ， 只 要 构造 这 些 树 并 计算 出 它们 的 路 径 长 度 。 伸 展 
BST 要 比 随 机 BST 更 接近 平衡 ， 还 是 更 不 平衡 、 还 是 平衡 程度 一 样 ? 

13.33 扩展 你 在 练习 13.32 中 的 程序 ， 在 每 棵 构造 的 树 中 使 用 伸展 法 进行 N 次 随机 搜索 (它们 
最 可 能 是 搜索 失败 )。 伸 展 是 如 何 影响 一 次 搜索 失败 的 平均 比较 次 数 的 ? 

13.34 ”利用 你 从 练习 13.32 和 练习 13.33 所 得 的 程序 测量 运行 时 间 ， 不 只 是 统计 比较 次 数 。 进 
行 同 样 的 实验 。 解 释 你 从 实验 结果 所 得 结论 的 变化 。 

13.35 ”对 以 下 任务 比较 伸展 BST 与 标准 BST， 从 一 份 至 少 有 1 百 万 个 字符 的 现实 世界 文本 中 
建立 一 个 索引 。 测 量 建立 该 索引 所 需 时 间 以 及 BST 中 平均 路 径 长 度 。 

13.36 通过 插入 NN 个 随机 关键 字 来 构造 一 棵 伸展 BST， 其 中 NN = 10;，10*，105; 和 105。 通 过 实 
验 确定 在 该 树 中 搜索 命中 的 平均 比较 次 数 。 

13.37 ”对 于 随机 化 BST， 用 伸展 插入 法 代替 标准 根 插入 法 这 一 思想 通过 实验 研究 进行 测试 。 

>13.38 ” 画 出 向 一 棵 初始 为 空 的 树 中 按照 关键 字 顺 序 0000000000001 揪 入 带 有 这 些 关 键 
字 的 数据 项 所 得 的 伸展 BST。 


13.3 自 顶 向 下 2-3-4 树 


尽管 我 们 可 以 通过 随机 化 BST 和 伸展 BST 提 供 良好 的 性 能 保障 ， 但 它们 两 者 依然 存在 某 个 
特定 的 搜索 需要 线性 搜索 时 间 的 可 能 性 。 它 们 也 因此 不 能 帮助 我 们 回答 关于 平衡 树 的 基本 问 
题 : 是否 存 在 一 种 BST， 使 我 们 能 够 保证 每 次 插入 和 搜索 操作 的 开销 是 该 树 大 小 的 对 数 函 
数 ? 在 本 节 和 13.4 节 ， 我 们 考虑 BST 的 一 种 抽象 推广 形式 ， 以 及 作为 一 类 BST 的 这 些 树 的 一 种 
抽象 表示 ， 它 将 使 我 们 能 够 对 这 个 问题 做 出 肯定 的 回答 。 

为 了 保证 BST 是 平衡 的 ， 我 们 需要 在 所 使 用 的 树 结构 中 存在 一 定 的 灵活 性 。 为 了 获得 这 
种 灵活 性 , 假设 树 中 节点 能 容纳 一 个 以 上 的 关键 字 。 更 明确 地 说 , 我 们 将 使 用 3- 节 点 和 4- 节 点 ， 
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它们 分 别 能 够 容纳 两 个 和 三 个 关键 字 。 一 个 3- 节 点 具有 三 个 从 它 出 发 的 链接 :一 个 用 于 其 关 
键 字 比 该 节点 本 身 的 两 个 关键 字 都 要 小 的 所 有 数据 项 ， 一 个 用 于 其 关键 字 介 于 该 节点 本 身 的 
两 个 关键 字 之 间 的 所 有 数据 项 ， 一 个 用 于 其 关键 字 比 该 节点 本 身 的 两 个 关键 字 都 要 大 的 所 有 
数据 项 。 类 似 地 ，4- 节 点 具有 四 个 从 它 出 发 的 链接 : 每 一 个 链接 用 于 由 它 的 三 个 关键 字 定义 
的 四 个 值 域 中 的 一 个 。 一 棵 标准 BST 中 的 节点 因此 可 称 为 2- 节 点 ， 一 个 关键 字 ， 两 个 链接 。 稍 
后 ， 我 们 将 看 到 一 些 高 效 方法 ， 它 们 定义 并 实现 了 对 这 些 扩 展 节点 的 基本 操作 。 现 在 ， 假 设 
我 们 可 以 便捷 地 控制 它们 ， 看 看 如 何 把 它们 放 到 一 起 以 形成 树 。 

定义 13.1 ”一 棵 2-3-4 搜 索 树 是 一 樟 或 者 为 空 ， 或 者 由 以 下 三 类 节点 组 成 的 树 : 2- 节 点 ， 
具有 一 个 关键 字 、 一 个 指向 带 有 较 小 关键 字 的 一 棵 树 的 左 链接 、 一 个 指向 带 有 较 大 关键 字 的 
一 棵 树 的 右 链 接 ; 3- 节 点 ， 具 有 两 个 关键 字 、 一 个 指向 带 有 较 小 关键 字 的 一 棵 树 的 左 链接 、 
一 个 指向 带 有 该 节 点 两 个 关键 字 定义 区 间 之 间 的 关键 字 值 的 一 棵 树 的 中 链接 以 及 一 个 指向 带 
有 较 大 关键 字 的 一 棵 树 的 右 链接 ; 4- 节 点 ， 具 有 三 个 关键 字 和 四 个 链接 ， 对 于 该 节点 的 关键 
字 所 人 金 的 四 个 值 域 区 间 ， 这 些 链接 分 别 指向 带 有 区 间 定 义 的 关键 字 值 的 一 棵 树 。 

定义 13.2 ”一 棵 平衡 2-3-4 搜 索 树 是 一 棵 2-3-4 搜 索 树 ， 其 中 所 有 指向 空 树 的 链接 到 树 根 的 
距离 都 相同 。 

在 本 章 中 ， 我 们 使 用 术语 2-3-4 树 表示 平衡 2-3-4 搜 索 树 (在 其 他 环境 中 它 表示 一 种 更 广义 
的 结构 )。 图 13-10 描 述 了 一 棵 2-3-4 树 的 例子 。 


在 这 样 一 棵 树 里 对 关键 字 的 搜索 算法 ， 是 对 
BST 的 搜索 算法 的 推广 。 为 了 确定 一 个 关键 
字 是 否 在 树 中 ， 我 们 把 它 和 树 根 的 关键 字 作 
比较 : 如 果 等 于 其 中 任何 一 个 ， 我 们 就 得 到 
一 次 命中 搜索 ， 否 则 ， 我 们 顺 着 链接 。 从 树 
根 进入 与 包含 该 搜索 关键 字 的 关键 字数 值 集 
合 对 应 的 子 树 ， 并 在 该 树 递 归 地 搜索 。 对 于 
表示 2- 节 点 、3- 节 点 和 4- 节 点 以 及 组 织 寻找 
正确 链接 的 机 制 ， 存 在 很 多 方法 。 我 们 把 对 
这 些 解决 方案 的 讨论 推迟 到 13.4 节 ， 到 时 我 
们 将 讨论 一 种 特别 方便 的 方案 。 
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图 13-10 一 棵 2-3-4 树 


注 : 这 个 图 描述 了 一 棵 含有 关键 字 ASRCHINGEXM 


P 工 的 2-3-4 树 。 我 们 可 以 使 用 根 节点 中 的 关键 字 来 查 
找到 子 树 的 链接 ， 然 后 继续 递归 ， 从 而 找到 这 棵 树 中 
的 美 键 字 。 例 如 ， 要 搜索 这 樟树 中 的 P， 我 们 沿 着 根 
节点 的 右 链接 ， 因 为 P 大 于 I。 .然后 跟踪 根 的 右 孩 子 的 
中 间 链 接 ， 因 为 P 介 于 N 和 R 之 间 ， 最 后 搜索 成 功 终止 
于 包含 P 的 2- 节 点 上 。 


为 了 向 一 棵 2-3-4 树 中 插入 一 个 新 节点 ， 我 们 可 以 执行 一 次 失败 搜索 ， 然 后 插入 该 节点 ， 
正如 对 BST 的 处 理 那 样 ， 但 新 树 会 变 得 不 平衡 。2-3-4 树 之 所 以 重要 ， 主 要 原因 是 在 每 种 情况 
下 ， 我 们 可 以 进行 插入 并 仍然 能 在 树 中 保持 完美 的 平衡 状态 。 例 如 ， 如 果 搜 索 终止 处 的 节点 
是 一 个 2- 节 点 ， 很 容易 看 出 我 们 所 做 的 处 理 就 是 把 节点 转变 成 一 个 3- 节 点 。 类 似 地 ， 如 果 搜 索 
终止 处 的 节点 是 一 个 3- 节 点 ， 我 们 就 把 该 节点 转变 成 一 个 4- 节 点 。 但 如 果 搜 索 在 一 个 4- 节 点 终 
止 ， 我 们 应 该 怎么 办 呢 ? 答案 是 我 们 可 以 在 为 新 关键 字 腾 出 空间 的 同时 保持 树 的 平衡 ， 具 体 
方法 是 : 首先 把 4- 节 点 分 裂 成 两 个 2- 节 点 ， 把 中 间 关 键 字 传 递 给 该 节点 的 父 节点 。 图 13-11 显 
示 了 这 三 种 情况 。 

现在 ， 如 果 我 们 必须 分 裂 一 个 4- 节 点 ， 而 它 的 父 节 点 也 是 一 个 4- 节 点 ， 我 们 应 该 如 何 处 
理 呢 ? 一 种 方法 是 把 父 节 点 也 分 裂 ， 但 是 它 的 祖父 节点 还 可 能 是 一 个 4- 节 点 ， 祖 父 节 点 的 
父 节 点 也 可 能 是 ， 以 此 类 推 一 一 我 们 可 以 在 树 中 一 直 向 上 不 断 分 裂 节点 。 一 种 更 容易 的 方 
法 是 通过 在 向 下 搜索 树 的 过 程 中 分 裂 任 何 遇 到 的 4- 节 点 ， 从 而 保证 搜索 路 径 不 会 在 一 个 4- 节 
点 终结 
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图 13-11 2-3-4 树 的 插入 


注 : 一 棵 只 由 2 个 节点 组 成 的 2-3-4 树 等 同 于 BST (上 图 ) 树 。 我 们 可 以 把 对 C 的 搜索 终止 处 的 2- 节 点 转换 成 3- 节 
点 来 插入 C (从 上 数 第 2 个 图 )。 类 似 地 ， 我 们 可 以 把 对 HH 的 搜索 终止 处 的 3- 节 点 转 接 成 4- 节 点 来 插入 H (从 
上 数 第 3 个 图 ) 。 要 插入 I 需要 做 更 多 的 工作 ， 因 为 对 它 的 搜索 终止 于 一 个 4- 节 上 点。 首先， 我 们 分 裂 这 个 4- 节 
点 ， 把 它 的 中 间 关 键 字 向 上 传递 给 它 的 父 节点 ， 并 把 那个 节点 转换 成 3- 节 点 (从 上 数 第 4 个 图 ， 突 出 显示 )。 
这 个 转换 给 出 一 棵 包含 这 些 关 键 字 的 高 效 的 2-3-4 树 ， 在 树 底部 有 一 个 空位 存放 I。 最 后 ， 我 们 把 1 插入 到 当 
前 终止 搜索 的 2- 节 点 中 ， 并 把 那个 节点 转换 成 一 个 3- 节 点 (下 图 )。 


更 具体 地 说 ， 正 如 图 13-12 所 示 ， 我 们 每 次 
遇 到 一 个 连接 到 4- 节 点 的 2- 节 点 ， 我 们 把 这 个 
节点 对 转换 成 和 两 个 2- 节 点 相连 接 的 一 个 3- 节 
点 ; 而 每 次 我 们 遇 到 一 个 连接 到 4- 节 点 的 一 个 
3- 节 点 ， 我 们 把 这 个 节点 对 转换 成 和 两 个 2- 节 
点 相连 接 的 一 个 4- 节 点 。 不 仅 因为 关键 字 可 到 
处 移动 ， 还 因为 链接 也 可 到 处 移动 ， 因 此 对 4- 
节点 的 分 裂 是 可 能 的 。 两 个 2- 节 点 拥有 和 一 个 
4- 节 点 相同 数量 《4 个 ) 的 链接 ， 所 以 我 们 可 以 
执行 分 裂 ， 而 不 必 在 分 裂 布 点 以 下 (或 以 上 ) 
产生 任何 连锁 改变 。 一 个 3- 节 点 并 非 仅仅 通过 
加 入 另 一 个 关键 字 就 转变 成 4- 节 点 ， 它 还 需要 
另 一 个 指针 〈 在 这 种 情况 下 ， 由 分 裂 提供 这 上 额 


图 13-12 在 一 棵 2-3-4 树 中 分 裂 4- 节 点 

注 : 在 一 棵 2-3-4 树 中 ， 我 们 可 以 把 任何 一 个 不 是 4- 节 
点 孩子 节点 的 4- 节 点 分 裂 为 两 个 2- 节 点 ， 并 把 它 
的 中 间 记 录 传 递 给 它 的 父 节 点 。 一 个 附着 在 4- 节 
点 上 的 2- 节 点 (上 图 左 ) 变 成 一 个 附着 在 两 个 2- 
节点 上 的 3- 节 点 (上 图 右 )， 一 个 附着 在 4- 节 点 上 
的 3- 节 点 (下 图 左 ) 变 成 一 个 附着 在 两 个 2- 节 点 
上 的 4- 节 点 (下 图 右 )。 


外 的 指针 )。 关 和 键 一 点 是 ， 这 些 转换 纯粹 是 局 部 的 一 一 除了 图 13-12 所 示 部 分 外 ， 树 的 其 他 部 
分 都 不 需要 检查 或 修改 。 这 些 转 换 的 每 一 个 都 把 4- 节 点 的 关键 字 之 一 传递 到 该 节点 在 树 中 的 


父 节点 中 ， 并 相应 地 重新 组 织 链接 。 


当 我 们 在 树 中 向 下 处 理 时 ， 我 们 不 必 担 心 当前 节点 的 父 节点 是 一 个 4- 节 点 ， 因 为 我 们 的 
转换 处 理 已 经 保证 了 : 当 我 们 通过 树 里 的 每 个 节点 时 ， 向 下 继续 处 理 的 出 发 点 决 不 是 一 个 4- 
节点 。 特 别 是 ， 当 我 们 到 达 树 的 底部 时 ， 我 们 并 不 位 于 一 个 4- 节 点 上 ， 我 们 可 以 把 一 个 2- 节 点 
转换 成 3- 节 点 ， 或 把 一 个 3- 节 点 转换 成 4- 节 点 直接 插入 新 节点 。 我 们 可 将 该 插入 操作 看 作对 树 
底部 的 一 个 假想 4- 节 点 的 分 裂 ， 它 向 上 传递 这 个 要 插入 的 新 关键 字 。 
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最 后 一 个 细节 问题 : 只 要 树 根 变 成 一 个 4- 节 点 ， 我 们 就 把 它 分 裂 成 一 个 由 三 个 2- 节 点 组 成 
的 三 角形 ， 正 如 我 们 在 前 一 个 例子 中 对 第 一 个 分 裂 节点 所 做 的 那样 。 在 一 次 插入 后 马上 分 裂 
根 的 做 法 和 留待 下 一 次 插入 才 进 行 分 裂 的 选择 相 比 ， 稍 稍 方便 一 些 ， 因 为 我 们 永远 不 必 为 树 
根 的 父 节 点 担忧 。 分 裂 树 根 (也 只 有 这 种 操作 ) 使 得 树 增高 一 层 。 

图 13-13 描 述 了 对 一 个 关键 字 示 例 集 合 构造 2-3-4 树 的 过 程 。 和 从 上 向 下 生长 的 标准 BST 不 
同 ， 这些 树 从 下 向 上 生长 。 因 为 4- 节 点 在 自 顶 向 下 的 过 程 中 分 裂 ， 这 些 树 就 称 为 自 顶 向 下 2-3- 
4 树 。 这 个 算法 很 重要 ， 因 为 它 生 成 几乎 完美 的 平衡 搜索 树 ， 然 而 在 遍历 树 的 过 程 中 它 只 需 做 
几 个 局 部 转换 。 

从 


(AES) 
GB 
WW (RS) 
人 
(AC) 9 
人 
(AC) (HRS) 


gr 


Ac (GH) WW “® 


CD 
(E) (R) 
Ac (GH) YY (SX 
图 13-13 2-3-4 搜 索 树 构造 
注 : 该 图 序列 描述 了 把 带 有 关键 字 A SERCHIN GX 的 数据 项 插入 到 初始 为 空 的 2-3-4 树 中 的 过 程 。 我 们 把 搜 
索 路 径 上 遇 到 的 每 个 4- 节 点 进行 分 裂 ， 因 此 保证 了 在 底部 存在 新 村 入 数据 项 的 位 置 。 
性 质 13.6 在 N 个 节点 的 2-3-4 树 中 进行 搜索 ， 最 多 访问 lg N +1 个 节点 。 
树 根 到 每 个 外 部 节点 的 距离 都 相等 : 我 们 执行 的 转换 操作 对 于 任何 节点 到 树 根 的 距离 都 
没有 影响 ， 除 了 当 我 们 分 裂 树 根 时 ， 在 这 种 情况 下 所 有 节点 到 树 根 的 距离 增加 1。 如 果 所 有 节 


点 都 是 2- 节 点 ， 上 面 陈述 的 结果 成 立 ， 因 为 这 棵 树 就 类 似 于 一 棵 满 二 又 树 。 如 果 存 在 3- 节 点 和 
4- 节 点 ， 这 个 高 度 只 可 能 更 低 。 图 
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性 质 13.7 对 N 个 节点 的 2-3-4 树 进行 插入 ， 在 最 坏 情 况 下 需要 对 少 于 lg N +1 个 节点 进行 
分 到 ,而 在 平均 情况 下 ， 所 需 的 节点 分 裂 次 数 可 能 少 于 1。 

可 能 发 生 的 最 坏 情 况 是 在 通 向 插入 点 的 路 径 上 的 所 有 节点 都 是 4- 节 点 ， 它 们 全 部 都 将 分 
裂 。 但 在 一 个 N 个 元 素 构造 的 随机 排列 的 树 中 ， 不 但 最 坏 情 况 不 太 可 能 出 现 ， 而 且 在 平均 情况 
下 所 需 的 节点 分 裂 次 数 也 极 少 ， 这 是 因为 树 里 不 存在 很 多 4- 节 点 。 例 如 ， 在 图 13-14 描 述 的 大 
型 树 中 ， 所 有 4- 节 点 中 只 有 两 个 不 处 于 最 底层 。 专 家 们 至 今 还 没有 得 出 对 2-3-4 树 在 平均 情况 
下 的 性 能 的 精确 分 析 结 果 ， 但 实验 研究 表明 : 非常 少 的 分 裂 操 作用 于 使 树 保持 平衡 。 最 坏 情 
况 也 只 是 lg N 次 一 一 在 实际 情况 下 不 会 达到 这 个 数值 。 请 


图 13-14 一 棵 大 型 的 2-3-4 树 
注 : 这 棵 2-3-4 树 是 在 初始 为 空 的 树 中 进行 200 次 随机 村 入 的 结果 。 树 中 的 所 有 搜索 路 径 的 节点 数 为 6 或 更 少 。 


对 于 利用 2-3-4 树 的 搜索 操作 ， 先 前 的 描述 已 经 足以 定义 一 个 能 在 最 坏 情 况 下 保证 取得 良 
好 性 能 的 算法 了 。 然 而 ， 这 仅仅 达到 实现 目标 的 一 半 。 尽 管 我 们 可 能 编写 出 这 样 的 算法 : 它 
们 在 实际 中 对 分 别 代表 2-、3- 和 4- 节 点 的 不 同 数据 类 型 执行 转换 操作 ， 但 其 中 所 涉及 的 大 多 数 
任务 都 难以 在 这 个 直接 表示 中 实现 。 正 如 伸展 BST 那 样 ， 为 了 控制 更 复杂 的 节点 结构 ， 由 此 
产生 的 管理 开销 可 导致 这 些 算 法 比 标准 BST 搜 索 还 要 人 慢 。 平 衡 的 主要 目的 是 针对 一 个 最 坏 情 
况 提 供 保 障 ， 但 我 们 当然 希望 对 于 这 些 保 障 的 管理 开销 越 低 越 好 ， 而 且 我 们 也 希望 能 避免 在 
这 个 算法 的 每 一 次 运行 过 程 都 要 付出 这 些 开销 。 幸 运 的 是 ， 正 如 我 们 在 13.4 节 将 要 看 到 的 那 
样 ， 存 在 一 种 相对 简单 的 关于 2-、3- 和 4- 节 点 的 表示 方法 ， 它 允许 用 一 种 统一 的 途径 进行 转换 ， 
而 且 除 了 标准 二 又 树 搜索 产生 的 开销 外 ， 它 几乎 不 需要 管理 开销 。 

我 们 刚才 描述 的 算法 只 是 2-3-4 搜 索 树 中 维护 平衡 的 一 种 可 能 的 方法 。 还 有 一 些 也 能 达到 
相同 目标 的 其 他 方法 已 研制 出 来 。 

例如 ， 我 们 可 以 自 底 向 上 来 平衡 树 。 首 先 ， 在 树 中 进行 搜索 ， 找 到 要 插 人 数据 项 所 属 的 底 
部 节点 。 如 果 那 个 节点 是 一 个 2- 节 点 或 者 3- 节 点 ， 我 们 像 前 述 那样 把 它 变 成 一 个 3- 节 点 或 4- 节 
点 。 如 果 它 是 一 个 4- 节 点 ， 我 们 如 前 对 它 进 行 分 裂 〈 把 新 数据 项 插入 到 底部 所 得 到 的 其 中 一 个 
2- 节 点 中 )， 且 如 果 父 节点 是 一 个 2- 节 点 或 3- 节 点 ， 就 把 中 间 数 据 项 插入 到 父 节 点 中 。 如 果 父 节 
点 是 一 个 4- 节 点 ， 我 们 对 它 进行 分 裂 《 从 底部 把 中 间 节 点 插入 到 合适 的 2- 节 点 中 )。 如 果 父 节 
点 是 一 个 2- 节 点 或 3- 节 点 ， 则 把 中 间 数 据 项 插入 到 其 父 节点 中 。 如 果 祖 父 节 点 也 是 一 个 4- 节 点 ， 
我 们 用 同样 的 方法 向 树 的 上 方 移动 ， 分 裂 4- 节 点 ， 直 到 在 搜索 路 径 上 遇 到 一 个 2- 节 点 或 3- 节 点 。 

我 们 可 以 在 只 有 2- 节 点 或 3- 节 点 (无 4- 节 点 ) 的 树 中 进行 这 样 的 自 底 向 上 的 平衡 。 这 种 方 
法 在 算法 的 执行 过 程 中 ， 可 能 使 更 多 的 节点 分 裂 ， 但 却 容易 编写 代码 。 因 为 需要 考虑 的 情况 
较 少 。 在 另 一 种 方法 中 ， 当 我 们 准备 分 裂 一 个 4- 节 点 时 ， 通 过 寻找 不 是 4- 节 点 的 子孙 节点 来 寻 
求 降低 分 裂 节 点 的 数量 。 

所 有 这 些 方法 的 实现 涉及 一 些 基 本 递归 模式 ， 正 如 我 们 将 在 13.4 节 中 所 看 到 的 。 我 们 还 将 
在 第 16 章 讨论 一 般 性 的 方法 。 与 其 他 我 们 所 考虑 的 方法 相 比 ， 自 顶 向 下 插入 法 的 主要 优点 在 
于 ， 它 能 够 在 一 次 自 顶 向 下 遍历 树 的 过 程 中 达到 所 需 的 平衡 。 
练习 
>13.39 画 出 使 用 自 顶 向 下 播 入 法 ， 按 照 以 下 顺序 向 一 棵 初始 为 空 的 树 中 插入 带 有 关键 字 E A 
SYQUTION 的 数据 项 所 得 的 平衡 2-3-4 搜 索 树 。 
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>13.40 画 出 使 用 自 底 向 上 播 人 法， 按照 以 下 顺序 向 一 棵 初始 为 空 的 树 中 插入 带 有 关键 字 E A 
SYQUTION 的 数据 项 所 得 的 平衡 2-3-4 搜 索 树 。 

013.41 对 于 一 棵 有 AN 个 节点 的 平衡 2-3-4 树 ， 树 的 最 小 和 最 大 高 度 可 能 是 多 少 ? 

213.42 对 于 一 哥 有 AN 个 关键 字 的 平衡 2-3-4 BST， 树 的 最 小 和 最 大 高 度 可 能 是 多 少 ? 

013.43 画 出 有 N 个 关键 字 的 所 有 结构 上 不 同 的 平衡 2-3-4 BST, 2<N<12，。 
“13.44 求 出 在 练习 13.43 中 结构 上 不 同 的 平衡 2-3-4 树 中 ， 每 棵 树 出 现 的 概率 。 
个 随机 不 同 的 元 素 揪 入 到 初始 为 空 的 树 中 所 形成 。 

13.45 ”制作 一 个 表格 ， 显 示 对 于 来 自 练习 13.43 中 的 每 个 N， 同 构 的 树 的 数目。 同 构 的 意思 是 
指 这 些 树 可 以 通过 交换 节点 中 的 子 树 ， 实 现 相互 转换 。 

>13.46 描述 在 平衡 的 2-3-4-5-6 搜 索 树 中 进行 搜索 和 播 入 的 算法 。 

>13.47 ”和 画 出 一 棵 把 带 有 关键 字 E A SY Q U TI1O N 的 数据 项 按照 那个 次 序 插入 到 初始 为 空 的 
树 中 所 产生 的 不 平衡 的 2-3-4 搜 索 树 。 使 用 以 下 方法 : 如 果 搜 索 结束 于 一 个 2- 节 点 或 3- 节 点 ， 
则 像 在 平衡 算法 所 述 的 那样 ， 把 它 变 为 3- 节 点 或 4- 节 点 ， 如 果 搜 索 结束 于 一 个 4- 节 点 ， 则 用 一 


这 些 树 由 把 N 


个 新 的 2- 节 点 代替 那个 4- 节 点 中 的 适当 链接 。 
13.4 红 黑 树 


前 一 节 摘 述 的 自 顶 向 下 的 2-3-4 播 人 算法 容易 理 
解 ， 但 是 它 的 直接 实现 比较 困难 ， 因 为 各 种 情况 都 
可 能 出 现 。 我 们 需要 维护 三 种 不 同类 型 的 节点 ， 把 
搜索 的 关键 字 与 节点 中 的 每 个 关键 字 进 行 比较 ， 将 
一 个 节点 的 链接 和 其 他 信息 复制 到 其 他 节点 中 ， 创 
建 和 销毁 节点 ， 等 等 。 在 这 一 节 里 ， 我 们 考察 2-3-4 
树 的 一 种 简单 抽象 表示 ， 可 使 我 们 很 自然 地 实现 符 
号 表 的 算法 ， 并 可 保证 最 坏 情 况 下 的 性 能 接近 最 优 。 

基本 思想 是 把 2-3-4 树 表示 为 标准 的 BST (只 
含 2- 节 点 )， 但 在 每 个 节点 中 添加 一 个 额外 的 信息 
位 ， 以 编码 3- 节 点 和 4- 节 点 。 我 们 把 链接 看 作 两 种 
不 同 的 类 型 ， 红 链接 用 于 把 3- 节 点 和 4- 节 点 组 成 的 
小 的 二 又 树 绑 定 在 一 起 ， 黑 链接 用 于 把 2-3-4 树 绑 
定 在 一 起 。 具 体 地 说 ， 在 图 13-15 的 说 明 中 ， 我 们 
把 4- 节 点 表示 为 由 红 链 接连 接 的 三 个 2- 节 点 ， 把 3- 
节点 表示 为 由 一 个 红 链 接连 接 的 两 个 2- 节 点 。 在 一 
个 3- 节 点 中 的 红 链 接 可 能 是 左 链接 或 者 右 链 接 ， 因 
而 每 个 3- 节 点 可 有 两 种 表示 方式 。 

在 任何 树 中 ， 每 个 节点 都 有 一 个 链接 指向 它 ， 
因而 对 节点 着 色 等 价 于 对 链接 着 色 。 相 应 地 ， 我 
们 在 每 个 节点 中 使 用 额外 一 位 来 存放 指向 那个 节 
点 的 链接 的 颜色 。 我 们 把 用 这 种 方法 表示 的 2-3-4 
树 称 为 红 黑 (red-black) BST。 每 个 3- 节 点 的 方位 
是 根据 我 们 将 要 描述 的 算法 的 动态 性 确定 的 。 可 
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13-I5 红 黑 树 中 的 3- 贡 点 和 4- 节 点 


: 使 用 两 种 类 型 的 链接 为 我 们 表示 3- 节 点 和 4- 节 


点 提供 了 高 效 的 方法 。 我 们 使 用 红 链 接 (图 
中 的 粗 线 ) 表示 节点 中 的 内 部 连接 ， 黑 链接 
(图 中 的 细 线 ) 表示 2-3-4 树 链接 。 一 个 4- 节 点 
(上 图 中 的 左 图 ) 表示 为 红 链 接连 接 的 三 个 2- 
节点 构成 的 平衡 子 树 (上 图 中 的 右 图 ) 。 两 者 
都 有 三 个 关键 字 和 四 个 黑 链 接 。 一 个 3- 节 点 
(下 图 中 的 左 图 ) 表示 为 一 条 红 链 接连 接 的 两 
个 2- 节 点 构成 的 平衡 子 树 (下 图 中 的 右 图 )。 
它们 都 有 两 个 关键 字 和 三 个 黑 链接 。 





图 13-16 一 棵 红 黑 树 


: 该 图 描述 了 含有 关键 字 A SRCHINGEX 


M PL 的 一 棵 红 黑 树 。 我 们 可 以 用 标准 BST 的 
搜索 过 程 查找 这 棵 树 中 的 一 个 关键 字 。 在 这 
标 树 中 ， 从 根 到 一 个 外 部 节点 的 任何 一 条 路 
径 都 有 三 个 黑 链 接 。 如 果 我 们 把 这 樟树 中 红 
链接 连接 的 节点 放 到 一 起 ， 就 得 到 图 13-10 的 
2-3-4 树 。 


能 加 上 一 条 规则 ， 使 得 3- 节 点 都 向 同一 个 方向 倾斜 ， 但 这 样 做 没有 理由 。 图 13-16 显 示 了 一 棵 
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红 黑 树 的 例子 。 如 果 我 们 消除 红 链 接 ， 并 把 它们 连接 的 节点 放 到 一 起 ， 结 果 就 是 图 13-10 的 2- 
3-4 树 。 

红 黑 树 有 两 个 基本 的 性 质 ，(i) BST 的 标准 搜索 过 程 不 需要 修改 就 可 以 使 用 ，(ii) 它们 直 
接 与 2-3-4 树 对 应 ， 因 而 只 要 我 们 维护 这 种 对 应 关系 ， 就 可 以 实现 平衡 2-3-4 树 算法 。 我 们 得 到 
了 两 种 结构 的 优点 标准 BST 的 简单 搜索 过 程 和 2-3-4 搜 索 树 的 简单 插入 -平衡 过 程 。 

搜索 过 程 从 来 不 会 检查 表示 节点 颜色 的 域 ， 因 而 平衡 机 制 不 会 增加 基本 搜索 过 程 所 花费 
的 时 间 开 销 。 在 典型 应 用 中 ， 因 为 每 个 关键 字 只 插入 一 次 ， 但 可 能 搜索 很 多 次 ， 最 终结 果 是 
我 们 以 相对 小 的 开销 (因为 在 搜索 过 程 中 不 需要 为 平衡 付出 工作 ) 改进 了 搜索 次 数 (因为 树 
是 平衡 的 ) 。 此 外 ， 播 入 的 开销 较 小 : 仅 当 看 到 4- 节 点 时 才 必 须 进行 平衡 。 而 在 树 中 4- 节 点 不 
多 ， 因 为 我 们 总 在 分 裂 它 们 。 播 入 过 程 的 内 循环 是 向 树 的 下 方 推进 的 代码 (与 标准 BST 中 搜 
索 或 搜索 -插入 的 过 程 一 样 )。 加 上 一 个 测试 : 如 果 一 个 节点 有 两 个 红 孩 子 ， 那 么 它 是 一 个 4- 节 
点 的 一 部 分 。 这 个 较 低 开 销 是 红 黑 BST 高 效 的 主要 原因 。 

现在 ， 让 我 们 考虑 在 遇 到 一 个 4- 节 点 时 可 能 需要 进行 的 两 种 转换 的 红 黑 表示 : 如 果 我 们 
有 一 个 连接 到 4- 节 点 的 2- 节 点 ， 那 么 我 们 应 该 把 这 一 对 转换 成 连接 到 两 个 2- 节 点 的 一 个 3- 节 
点 ， 如果 我 们 有 一 个 连接 到 4- 节 点 的 3- 节 点 ， 那 么 我 们 应 该 把 这 一 对 转换 成 连接 到 两 个 2- 节 点 
的 一 个 4- 节 点 。 当 在 树 的 底部 添加 一 个 新 节点 时 , 我 们 可 以 把 它 想象 为 一 个 必须 分 裂 的 4- 节 点 ， 
它 的 中 间 节 点 向 上 传送 ， 播 入 到 查找 结束 的 底部 节点 中 ， 这 个 自 顶 向 下 的 过 程 可 以 保证 这 个 
节点 是 一 个 2- 节 点 或 3- 节 点 。 在 遇 到 一 个 连接 到 4- 节 点 的 2- 节 点 时 ， 所 需 的 转换 比较 简单 。 如 
果 遇 到 一 个 连接 到 4- 节 点 的 3- 节 点 时 ， 用 “正确 的 ”方式 进行 同样 的 转换 也 行 ， 如 图 13-17 中 
的 前 两 种 情况 所 示 。 
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图 13-17 分 裂 红 黑 树 中 的 一 个 4- 节 点 
注 : 在 一 棵 红 黑 树 中 ， 对 于 不 是 4- 节 点 的 一 个 孩子 节点 ， 我 们 通过 改变 构成 4- 节 点 的 三 个 节点 的 节点 颜色 ， 然 
后 进行 一 、 两 次 可 能 的 旋转 来 实现 分 型 一 个 4- 节 点 的 操作 。 如 果 父 节点 是 一 个 2- 节 点 〈 上 图 ) ， 或 是 一 个 具 
有 便利 定向 的 3- 节 点 (从 上 面 数 第 2 个 图 ) ， 就 不 需要 旋转 。 如 果 4- 节 点 是 在 3- 节点 链接 的 中 间 链 接 (下 图 ) ， 
就 需要 进行 双重 旋转 ， 否则， 一 个 旋转 就 足够 了 (从 上 面 数 第 3 个 图 )。 
如 果 我 们 遇 到 连接 到 4- 节 点 的 一 个 3- 节 点 ， 就 可 能 出 现 其 他 两 种 要 处 理 的 情况 ， 如 图 13-17 
中 的 后 两 种 情况 。( 实 际 上 有 四 种 情况 ， 因 为 对 于 另 一 个 方向 的 3- 节 点 ， 也 可 能 出 现 这 两 种 情 
况 的 镜像 .) 在 这 些 情况 下 ， 单 纯 的 4- 节 点 分 裂 在 一 行 中 留 下 两 个 红 链 接 ， 所 产生 的 树 并 不 能 
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表示 出 一 棵 和 我 们 的 约定 相 一 致 的 2-3-4 树 。 这 种 情况 并 不 太 坏 ， 因 为 我 们 确实 得 到 由 红 链 接 
连接 的 三 个 节点 我 们 需要 做 的 是 转换 这 棵 树 ， 使 其 从 同一 节点 出 来 的 红 链 接 向 下 指 。 

幸运 的 是 ， 我 们 已 经 使 用 的 旋转 操作 正 是 我 们 达到 目标 所 需要 的 操作 。 我 们 从 剩 下 的 两 
种 情况 中 较 容易 的 一 种 开始 ， 图 13-17 的 第 三 种 情况 ， 其 中 附着 在 一 个 3- 节 点 上 的 4- 节 点 已 经 
分 裂 ， 在 那 行 中 留 下 两 个 方向 一 致 的 红 链接 。 如 果 ® 
一 个 3- 节 点 已 指向 另 一 方向 , 这 种 情况 就 不 会 出 现 。 "sn 
相应 地 ， 我 们 重 构 树 来 切换 3- 节 点 的 方向 ， 因 此 把 
这 种 情况 简化 成 和 第 二 种 情况 一 样 ， 那 时 单纯 的 4- 人 @ 
节点 分 裂 就 足够 了 。 重 构 树 来 重新 定向 一 个 3- 节 点 A 
是 一 种 带 有 附加 要 求 的 单个 旋转 ， 它 要 求 必须 交换 
这 两 个 节点 的 颜色 。 Ce 

最 后 ， 为 了 处 理 附 着 在 一 个 3- 节 点 的 4- 节 点 分 入 全 
烈 后 在 一 行 中 留 下 两 个 有 不 同方 向 的 红 链 接 的 情 
况 ， 我 们 通过 旋转 直接 把 这 种 情况 简化 为 链接 在 图 13-18 红 潜 树 中 的 插入 
同一 个 方向 的 情况 ， 此 时 可 用 前 述 方 法 处 理 。 这 注 : 这 个 图 描述 了 把 带 有 关键 字 I 的 一 个 记录 插入 
个 转换 与 我 们 在 13.2 节 中 的 伸展 BST 中 所 用 的 左 - 到 贡 全 经 宫 树 《上 国 ) 中 的 过 程 (开国 )。 在 
有 和 有 - 左 双 重 旋转 一 样 。 虽 然 我 们 要 做 一 点 工作 。 。 生 入 请 生 市， 林业 全 允 全 人 让 处 全 人 
来 维持 正确 的 颜色 。 图 13-18 和 图 13-19 描 述 了 红 黑 新 节点 添加 到 底部 ， 并 把 包含 阳 的 节点 从 2- 节 
树 插 入 操作 的 例子 。 点 转换 成 3- 节 点 。 





图 13-19 红 黑 树 中 的 插入 ， 带 有 旋转 


注 ; 这 个 图 描述 了 把 带 有 关键 字 G 的 一 个 记录 插入 到 示例 红 黑 树 (从 上 面 数 第 一 个 图 ) 中 的 过 程 。 在 这 种 情况 
中 ， 插 入 过 程 包括 一 个 在 [处 分 裂 4- 节 点 的 操作 ， 并 使 颜色 改变 (从 上 面 数 第 二 个 图 ) ， 然 后 把 新 节点 添加 
到 底部 (从 上 面 数 第 三 个 图 )， 接 着 〈 在 递归 函数 调用 之 后 ， 返 回 到 代码 中 的 搜索 路 径 上 的 每 个 节点 处 ) 在 
C 处 进行 左旋 转 和 在 R 处 进行 右 旋 转 ， 来 完成 分 型 一 个 4- 节 点 的 过 程 。 
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程序 13.6 是 红 黑 树 插入 操作 的 一 种 实现 ， 它 所 进行 的 转换 在 图 13-17 中 作 了 概述 。 递 归 实 
现 使 它 可 能 执行 如 下 的 处 理 : 在 树 中 向 下 推进 的 过 程 中 ， 切 换 4- 节 点 的 颜色 (在 递归 调用 之 
前 )， 然 后 在 树 中 向 上 推进 的 过 程 中 ， 执 行 旋转 操作 (递归 调用 之 后 ) 。 如 果 没 有 我 们 开发 实 
现 这 个 程序 的 两 层 抽 象 ， 程 序 会 变 得 难以 理解 。 我 们 可 以 检查 递归 技巧 实现 了 图 13-17 描 述 的 
旋转 操作 ， 再 检查 这 个 程序 实现 了 关于 2-3-4 树 的 高 级 算法 一 一 在 向 下 推进 中 分 烈 4- 节 点 ， 然 
后 把 新 数据 项 插入 到 树 底部 搜索 路 径 结 束 的 2- 节 点 或 3- 节 点 中 。 


i 程序 13;6 红 照 BST 中 的 插入 1 

这 个 函数 使 用 红 黑 表示 法 实现 了 在 2 3-4 树 中 的 插入 。 我 们 在 类 型 STnode 中 增加 一 个 颜色 
位 red (相应 地 扩展 NEW)， 用 1 指示 节点 为 红色 ，0 指 示 节 点 为 黑色 。 一 棵 空 树 就 是 到 观察 哨 节 
点 z 的 一 个 链接 ，z 是 一 个 链接 指向 自身 的 黑 节 点 。 

在 树 中 向 下 进行 的 过 程 中 (在 递归 调用 之 前 )， 我 们 检查 4- 节 点 ， 并 通过 改变 所 有 它 的 三 
个 节点 的 颜色 来 对 它们 进行 分 裂 。 当 我 们 到 达 树 底部 时 ， 我 们 为 要 播 入 的 数据 项 创建 一 个 新 
的 红 节 点 并 返回 指向 它 的 链接 。 

在 树 中 向 上 进行 的 过 程 中 (递归 调用 之 后 ) ， 我 们 把 链接 设置 成 希望 返回 的 链接 值 ， 然 后 
检查 是 否 需 要 旋转 操作 。 如 果 搜 索 路 径 有 两 个 在 同一 方向 的 红 链 接 ， 则 从 上 面 的 节点 执行 一 
次 旋转 操作 ， 然 后 改变 颜色 位 构成 一 个 正常 的 4- 节 点 。 如 果 搜 索 路 径 有 两 个 在 不 同方 向 的 红 
链接 ， 则 从 下 面 的 节点 执行 一 次 旋转 操作 ， 简 化 成 下 一 步 处 理 的 另 一 种 情况 。 

link RBinsert (link h, Item item, int sw) 

{ Key v = key(item); 
if (h == Z) return NEW(item, z, z, 1, 1): 
if ((hl->red) && (hr->red)) 
{ h->red = 1; hl->red = 0; hr->red = 0; } 
if (less(v, key(h~->item))) 
{ 
hl = RBinsert (hl, item, 0); 
if (h->red && hl->red && sw) h = rotR(h); 
if (hl->red && hll->red) 
{h = rotR(h); h->red = 0; hr->red = 1; } 


8alse 
{ 
hr = RBinsert (hr, item, 1); 
if (h->red && hr->red && Ilsw) h = rotL(h); 
if (hr->red && hrr->red) 
{th = rotL(h); h->red = 0; hl->red = 1; } 
} 
fixN(h); return h; 
} 
void STinsert(Item item) 
{ head = RBinsert (head, item, 0); head->red = 0; } 


图 13-20 (我 们 可 以 把 它 看 作 图 13-13 的 更 详细 的 版 本 ) 显示 了 程序 13.6 构 造 红 - 黑 树 的 过 
程 ， 该 树 把 播 入 的 关键 字 的 样本 集合 表示 为 一 棵 平衡 2-3-4 树 。 图 13-21 显 示 了 由 我 们 使 用 的 大 
的 样本 集合 所 构造 的 一 棵 树 。 在 这 棵 树 中 ， 搜 索 一 个 随机 关键 字 所 需 访问 的 节点 平均 数 为 
5.81 次 ， 可 与 在 第 12 章 由 同一 组 关键 字 构 造 的 树 中 的 搜索 需要 7 次 ， 完 美 平衡 树 中 的 搜索 需要 
5.74 次 相 比较 。 只 需 花 费 几 次 旋转 ， 我 们 就 得 到 一 棵 平衡 程度 比 我 们 在 本 章 针对 同一 组 关键 
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字 所 看 到 的 其 他 任何 种 类 树 的 平衡 程序 更 好 的 树 。 程 序 13.6 是 高 效 的 ， 它 是 一 种 使 用 二 又 树 
结构 进行 插入 的 相对 紧凑 的 算法 ， 可 以 保证 所 有 的 搜索 和 播 入 时 间 为 对 数 步 数 。 它 是 为 数 不 
多 的 具有 这 个 性 质 的 符号 表 的 实现 方法 之 一 。 在 一 个 库 实现 中 ， 当 待 处 理 的 关键 字 序 列 的 性 
质 不 能 刻画 出 来 时 ， 它 的 用 处 就 得 到 证 实 了 。 


图 13-20 红 黑 树 中 的 构造 
注 : 这 个 序列 描述 了 把 带 有 关键 字 的 ASERCHIN GX 的 记录 插入 到 初始 为 室 的 红 黑 树 中 的 过 程 。 


图 13-21 .一 棵 大 型 的 红 黑 树 


注 : 这 个 红 黑 BST 是 把 200 个 随机 有 序 的 关键 字 插 入 到 初始 为 空 的 树 后 的 结果 。 在 这 棵 树 中 所 有 搜索 失败 所 使 用 
的 比较 次 数 介 于 6 次 到 12 次 之 间 。 
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性 质 13.8 在 NN 个 节点 的 红 黑 树 中 进行 一 次 搜索 所 需 的 比较 次 数 少 于 2 lg N +2 次 。 

在 一 棵 2-3-4 树 中 只 有 对 连接 到 一 个 4- 节 点 上 的 3- 节 点 进行 分 裂 时 ， 红 黑 树 才 需 要 一 次 旋 
转 ， 这 个 性 质 可 由 性 质 13.2 得 出 。 当 到 播 入 点 的 路 径 交 替 地 包含 3- 节 点 和 4- 节 点 时 才 会 出 现 最 
坏 情 况 。 国 

此 外 ， 程 序 13.6 进 行 平衡 时 导致 一 点 开销 ， 但 它 所 产生 的 树 是 接近 最 优 的 。 因 而 它 作 为 一 
种 一 般 目的 的 快速 搜索 方法 也 还 是 有 吸引 力 的 。 

性 质 13.9 ”在 由 随机 关键 字 构 造 的 N 个 节点 的 红 黑 树 中 进行 一 次 搜索 ， 平均 大 约 需要 
1.002 lg N 次 比较 。 

经 过 一 些 分 析 和 模拟 〈 见 第 四 部 分 参考 文献 ) 所 证 实 的 常数 1.002 足 够 小 ， 因 而 实际 上 我 
们 可 以 把 红 黑 树 看 作 是 最 优 的 。 但 红 黑 树 是 否 是 最 优 的 问题 仍然 是 一 个 开放 问题 。 这 个 常数 
等 于 1 吗 ? 国 

因为 程序 13.6 的 递归 实现 在 递归 调用 之 前 做 了 一 些 工作 ， 在 递归 调用 之 后 也 做 了 一 些 工 
作 ， 它 在 树 中 向 下 推进 的 搜索 路 径 和 向 上 推进 的 搜索 路 径 中 做 了 一 些 修改 。 于 是 ， 它 并 不 具 
有 在 一 遍 自 顶 向 下 的 过 程 中 完成 树 的 平衡 的 性 质 。 这 个 事实 对 于 多 数 的 应 用 影响 不 大 ， 因 为 
可 以 保证 递归 的 深度 是 较 小 的 。 对 于 涉及 多 个 独立 访问 同一 标 树 的 某 些 应 用 ， 我 们 可 能 需要 
实现 它 的 非 递归 算法 ， 使 得 能 在 任何 时 刻 对 常数 数量 的 节点 主动 进行 操作 ( 见 练习 13.66) 。 

对 于 一 个 在 树 中 携带 了 其 他 信息 的 应 用 ， 旋 转 操作 的 开销 也 许 相当 昂贵 ， 我 们 需要 更 新 
旋转 操作 涉及 的 子 树 中 所 有 节点 的 信息 。 对 于 这 样 一 个 应 用 ， 我 们 可 以 用 红 黑 树 实现 13.3 节 
末尾 描述 的 自 底 向 上 的 2-3-4 搜 索 树 ， 来 保证 每 个 插入 操作 最 多 只 涉及 一 次 旋转 。 在 这 些 树 中 ， 
一 次 播 入 需 沿 着 搜索 路 径 对 4- 节 点 进行 分 裂 ， 在 红 黑 树 的 表示 中 只 需要 作 颜 色 变换 ， 而 无 需 
进行 旋转 。 接 着 ， 当 沿 着 搜索 路 径 向 上 遇 到 第 一 个 2- 节 点 或 3- 节 点 ( 见 练习 13.59) 时 ， 则 执 
行 一 次 单一 旋转 或 双重 旋转 (图 13-17 的 一 种 情况 )。 

如 果 要 在 树 中 维持 重复 的 关键 字 ， 正 如 我 们 对 伸展 BST 所 做 的 那样 ， 必 须 允 许 带 有 与 给 
定 节点 相等 关键 字 的 数据 项 落 入 该 节点 的 两 边 。 否 则 ， 长 串 的 重复 关键 字 会 产生 严重 的 不 平 
衡 。 这 个 观察 再 次 告诉 我 们 : 找 出 所 有 含有 给 定 关键 字 的 数据 项 需要 专门 的 代码 。 

如 在 13.3 节 的 末尾 所 提 到 的 ，2-3-4 树 的 几 种 红 黑 表示 法 是 已 经 提出 的 用 于 实现 平衡 二 又 
树 的 几 种 类 似 策 略 〈 见 第 四 部 分 参考 文献 ) 。 正 如 我 们 所 看 到 的 ， 是 旋转 操作 使 树 变 得 平衡 ， 
我 们 已 经 从 这 些 树 的 一 种 特定 视角 进行 考虑 ， 很 容易 决定 什么 时 候 进 行 旋转 。 从 这 些 树 的 其 
他 视角 出 发 则 产生 其 他 算法 ， 在 这 里 我 们 将 简要 地 讨论 其 中 的 几 个 。 

用 于 平衡 树 的 最 古老 、 最 著名 的 数据 结构 是 高 度 平 衡 树 (height-balanced tree， 或 称 AVL 
树 ) ， 它 是 Adel'sonVel'skii 和 Landis 在 1962 年 提出 的 。 这 些 树 具 有 每 个 节点 的 子 树 高 度 最 多 相 
差 1 的 性 质 。 如 果 一 次 揪 入 导致 某 节点 的 其 中 一 棵 子 树 在 高 度 上 增加 1， 那 么 平衡 条 件 就 可 能 
侵犯 。 然 而 ， 在 每 种 情况 下 ， 一 次 单一 旋转 或 双重 旋转 即 可 使 节点 恢复 平衡 状态 。 算 法 所 基 
于 的 观察 与 自 底 向 上 的 平衡 2-3-4 树 的 方法 类 似 : 先 对 该 节点 执行 一 次 递归 搜索 ， 然 后 ， 在 递 
归 调 用 之 后 检查 不 平衡 的 情况 ， 必 要 时 执行 一 次 单一 旋转 或 双重 旋转 来 修正 问题 ( 见 练习 
13.61) 。 在 确定 到 底 做 哪 种 旋转 时 ， 需 要 知道 每 个 节点 和 它 的 兄弟 节点 的 高 度 相 比 ， 其 高 度 
小 于 1、 等 于 1 还 是 大 于 1。 在 每 个 节点 中 增加 两 位 就 可 以 记录 这 个 信息 ， 然 而 如 果 利 用 红 黑 抽 
象 ， 也 有 可 能 无 需 任何 额外 存储 空间 即 可 达到 目的 ( 见 练习 13.62 和 练习 13.65)。 

因为 4- 节 点 在 自 底 向 上 的 2-3-4 算 法 中 并 不 扮演 特殊 的 角色 ， 所 以 完全 可 能 只 使 用 2- 节 点 
和 3- 节 点 ， 以 本 质 上 相同 的 方法 来 建立 平衡 树 。 用 这 样 的 方法 建立 的 树 称 为 2-3 树 ， 它 是 
Hopcroft 在 1970 年 提出 的 。2-3 树 没有 足够 的 灵活 性 给 出 一 种 便利 的 自 顶 向 下 的 插入 算法 。 并 
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且 ， 红 黑 架构 可 以 简化 该 实现 方法 , 但 自 底 向 上 2-3 树 与 自 底 向 上 2-3-4 树 相 比 并 没有 特别 的 优 
点 ， 因 为 它 仍然 需要 单一 旋转 和 双重 旋转 来 保持 树 的 平衡 。 自 底 向 上 的 2-3-4 树 的 平衡 性 稍微 
好 一 些 ， 并 且 具 有 每 次 插入 最 多 使 用 一 次 旋转 操作 的 优点 。 

在 第 16 章 中 ,我们 将 研究 平衡 树 的 另 一 种 重要 类 型 . 它 是 2-3-4 树 的 一 种 扩展 ， 称 为 B 树 
(B-tree) 。 对 于 较 大 的 M 值 ，B 树 允许 在 每 个 节点 存储 多 达 M 个 关键 字 ， 也 因此 广泛 应 用 于 大 
型 文件 的 搜索 应 用 。 

我 们 已 经 通过 和 2-3-4 树 的 对 应 关系 定义 了 红 黑 树 。 而 进行 直接 的 结构 定义 也 是 相当 有 
趣 的 。 

定义 13.3 红 黑 BST 是 一 棵 二 又 搜索 树 ， 其 中 每 个 节点 都 标记 为 红 或 黑 ， 附 加 的 限制 条 件 
是 : 在 任何 一 个 从 外 部 链接 通 向 树 根 的 路 径 上 ， 不 存在 连续 出 现 的 两 个 红 节点 。 

定义 13.4 平衡 红 黑 BST 是 一 棵 红 黑 BST， 其 中 所 有 从 外 部 链接 通 向 树 根 的 路 径 上 包含 的 
黑 节点 数 相 同 。 

现在 ， 开 发 平衡 树 算法 的 另 一 种 可 选 方法 是 完全 忽略 2-3-4 树 抽象 ， 并 形式 化 一 个 播 入 算 
法 ， 使 它 通 过 旋转 操作 保存 平衡 红 黑 BST 性 质 。 例 如 ， 使 用 自 底 向 上 的 算法 对 应 于 用 一 个 红 
链接 在 搜索 路 径 底 部 挂 接 新 节点 ， 然 后 沿 着 搜索 路 径 向 上 处 理 ， 进 行 旋转 或 颜色 改变 ， 正 如 
图 13-17 所 示 的 每 种 情况 那样 ， 以 此 分 解 在 路 径 上 遇 到 的 任何 连续 的 红 链 接 对 。 我 们 执行 的 基 
本 操作 和 程序 13.6 及 其 自 底 向 上 对 应 版 本 都 一 样 ， 但 也 存在 细微 差别 。 这 是 因为 3- 节 点 可 指向 
两 个 方向 的 其 中 一 个 ， 具 体操 作 也 可 按照 不 同 顺序 执行 ， 也 可 以 成 功 地 使 用 各 种 各 样 不 同 的 
旋转 决策 。 

综 上 所 述 ， 利 用 红 黑 树 来 实现 平衡 2-3-4 树 ， 我 们 可 以 开发 一 个 符号 表 ， 如 果 一 个 搜索 操 
作 在 一 个 文件 (比如 说 共有 1 百 万 数据 项 ) 中 搜索 一 个 关键 字 ， 则 它 只 需要 把 该 关键 字 和 大 约 
20 个 其 他 关键 字 做 比较 ， 即 可 完成 任务 。 在 最 坏 情 况 下 ， 使 用 的 比较 次 数 也 不 超过 40 次 。 此 
外 ， 每 次 操作 相关 的 开销 很 小 ， 因 此 即使 在 一 个 巨大 的 文件 中 也 可 确保 进行 快速 搜索 。 
练习 

>13.48 ” 画 出 使 用 自 顶 向 下 插入 法 ， 按 照 以 下 顺序 把 带 有 关键 字 E A SY Q U TIO N 的 数据 项 
插入 到 一 棵 初始 为 空 的 树 中 所 得 的 红 黑 BST。 

>13.49 画 出 使 用 自 底 向 上 播 入 法 ， 按 照 以 下 顺序 向 一 棵 初始 为 空 的 树 中 插入 带 有 关键 字 E A 
SYQUTION 的 数据 项 所 得 的 红 黑 BST。 

co13.50 ”和 画 出 把 字母 A 到 K 按 照 这 个 顺序 插入 到 一 棵 初始 为 空 的 树 中 所 得 的 红 黑 树 ， 然 后 描述 
当 把 关键 字 按 照 递增 次 序 进行 插入 构建 树 时 出 现 的 一 般 情 况 。 
13.51 给 出 一 个 插入 序列 ， 构 造 出 图 13-16 所 示 的 红 黑 树 。 
13.52 ”生成 两 个 随机 32- 节 点 的 红 黑 树 。 画 出 这 两 棵 红 黑 树 (用 手 或 用 程序 画 )。 把 它们 与 用 
同一 组 关键 字 构 建 的 (不 平衡 ) BST 进 行 比较 。 
13.53 与 一 棵 有 i 个 3- 节 点 的 2-3-4 树 对 应 的 红 黑 树 有 多 少 棵 ? 

013.54 画 出 有 N 个 关键 字 (2<N<12) 的 所 有 结构 上 不 同 的 红 黑 搜索 树 。 

。13.55 ” 求 出 练习 13.43 中 所 得 集合 中 每 棵 树 出 现 的 概率 。 该 集合 是 把 N 个 随机 不 同 元 素 插 入 到 
一 棵 初始 为 空 的 树 中 得 到 的 有 不 同 树 的 集合 。 
13.56 ”制作 一 个 表格 ， 显 示 对 于 来 自 练习 13.54 中 的 每 个 N， 同 构 的 树 的 数目 。 同 构 的 意思 是 
指 这 些 树 可 以 通过 交换 节点 中 的 子 树 ， 实 现 相互 转换 。 

13.57 显示 在 最 坏 情 况 下 ， 一 棵 N 个 节点 的 红 黑 树 中 ， 从 根 到 外 部 节点 的 几乎 所 有 路 径 长 度 
为 2 lg N。 


3607 


13.58 在 N 个 节点 的 红 黑 树 中 进行 一 次 插入 ， 最 坏 情 况 下 需要 多 少 次 旋转 ? 

013.59 利用 自 底 向 上 平衡 2-3-4 树 作为 基本 数据 结构 ， 使 用 红 黑 表示 法 和 与 程序 13.6 相 同 的 递 
归 方 法 ， 实 现 符号 表 的 初始 化 、 搜 索 和 插入 操作 。 提 示 ， 你 的 代码 可 以 模仿 程序 13.6 但 进行 
操作 时 要 以 不 同 的 次 序 。 

13.60 利用 自 底 向 上 平衡 2-3 树 作为 基本 数据 结构 ， 使 用 红 黑 表示 法 和 与 程序 13.6 相 同 的 递归 
方法 ， 实 现 符号 表 的 初始 化 、 搜 索 和 插入 操作 。 

13.61 利用 高 度 平衡 (AVL) 树 作为 基本 数据 结构 ， 使 用 与 程序 13.6 相 同 的 递归 方法 ， 实 现 
符号 表 的 初始 化 、 搜 索 和 插入 操作 。 

“13.62 ”修改 练习 13.61 的 实现 ， 使 用 红 黑 树 (每 个 节点 1 位 ) 来 编码 平衡 信息 。 

“13.63 使 用 3- 节 点 总 是 向 右 的 红 黑 表示 法 ， 实 现 平衡 的 2-3-4 树 。 注 意 : 这 个 改变 可 使 你 去 掉 
insert 操 作 的 内 循环 中 的 一 个 位 测试 。 

。13.64 程序 13.6 进 行 旋转 来 保持 4- 节 点 的 平衡 。 使 用 红 黑 树 表 示 法 (其 中 4- 节 点 可 表示 为 由 
两 个 红 链 接连 接 的 任意 3 个 节点 ) 开发 一 个 平衡 2-3-4 树 的 实现 。 

2013.65 ”对 每 个 颜色 位 不 使 用 额外 存储 空间 ， 而 使 用 以 下 策略 实现 红 黑 树 的 初始 化 、 搜 索 和 播 
入 操作 。 要 对 节点 着 红色 ， 先 交换 它 的 两 个 链接 。 然 后 ， 测 试 节点 是 否 是 红色 ， 测 试 它 的 左 
孩子 是 否 大 于 它 的 右 孩 子 。 你 必须 对 比较 进行 修改 以 使 链接 交换 能 够 进行 ， 且 这 种 策略 用 关 
键 字 比较 代替 了 位 比较 ， 因 为 认为 后 者 开销 昂贵 ， 但 这 种 策略 表明 如 果 需 要 ， 可 以 去 掉 节 点 
中 的 那 一 位 。 

“13.66 ”实现 一 个 非 递归 的 红 黑 BST 插 入 函数 ( 见 程序 13.6)， 它 与 带 有 一 次 自 顶 向 下 遍历 的 平 
衡 2-3-4 树 插入 对 应 。 提 示 : 分 别 使 链接 gg、g 和 p 指 向 树 中 当前 节点 的 曾祖 父 节点 、 祖 父 节点 
和 父 节 点 。 双 重 旋转 可 能 需要 这 些 链 接 。 

13.67 编写 一 个 计算 一 棵 给 定 红 黑 BST 中 黑 节 点 所 占 百分比 的 程序 。 通 过 把 N 个 随机 关键 字 
插入 到 初始 为 空 的 树 中 来 测试 你 的 程序 。 其 中 N = 10;，104，105 和 105。 

13.68 ”编写 一 个 计算 一 棵 给 定 2-3-4 搜 索 树 中 3- 节 点 和 4- 节 点 的 数据 项 所 占 百 分 比 的 程序 。 通 
过 把 N 个 随机 关键 字 插入 到 初始 为 空 的 树 中 来 测试 你 的 程序 。 其 中 N = 10;?，104，105 和 105。 

>13.69 对 于 每 个 节点 使 用 一 位 用 于 颜色 ， 我 们 可 以 表示 2- 节 点 、3- 节 点 和 4- 节 点 。 在 一 棵 二 
又 树 中 每 个 节点 需要 多 少 位 来 表示 5- 节 点 、6- 节 点 、7- 节 点 和 8- 节 点 ? 

13.70 ”进行 实验 研究 ， 计 算 在 一 棵 红 黑 树 中 进行 搜索 命中 和 搜索 失败 所 使 用 的 比较 次 数 的 平 
均值 和 标准 差 。 红 黑 树 由 把 N 个 随机 关键 字 插 入 到 初始 为 空 的 树 中 构建 ， 其 中 N = 103，104， 
103 和 105。 

13.71 对 于 练习 13.70 中 的 程序 ， 计 算 构 建树 时 所 用 的 旋转 次 数 和 节点 分 裂 次 数 ， 并 对 结果 
进行 讨论 。 

13.72 使 用 练习 12.28 中 的 驱动 程序 ， 针 对 练习 12.29 和 练习 12.30 ( 见 练习 13.29) 中 定义 的 
搜索 查询 分 布 ， 将 伸展 BST 的 自 组 织 搜 索 与 红 黑 BST 以 及 标准 BST 在 可 保证 的 最 坏 情 况 性 能 作 
一 比较 。 

“13.73 实现 红 黑 树 的 搜索 函数 ， 它 在 树 中 向 下 推进 的 过 程 中 进行 旋转 以 及 改变 节点 的 颜色 ， 
来 保证 搜索 路 径 底 部 的 节点 不 是 一 个 2- 节 点 。 

。13.74 使 用 练习 13.73 中 的 解决 方法 ， 实 现 红 黑 树 的 一 个 删除 函数 。 找 出 要 删除 的 节点 ， 然 后 
继续 搜索 直到 路 径 底 部 的 一 个 3- 节 点 或 4- 节 点 ， 并 移动 底部 的 后 继 来 代替 这 个 删除 的 节点 。 
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13.5 跳跃 表 


在 本 节 中 ， 我 们 考虑 一 种 用 于 开发 符号 表 操 作 的 快速 实现 方法 。 最 初 它 似乎 和 我 们 一 直 
以 来 考虑 过 的 基于 树 的 方法 完全 不 同 ， 但 实际 上 它们 的 关系 非常 密切 。 它 以 一 种 随机 化 数据 
结构 为 基础 ， 而 且 可 以 肯定 的 是 它 为 我 们 一 直 以 来 考虑 的 符号 表 ADT 的 所 有 基本 操作 提供 了 
接近 最 优 的 性 能 。 这 个 基本 的 数据 结构 是 由 Pugh 在 1990 年 提出 的 〈 见 第 四 部 分 参考 文献 ) ， 称 
为 跳跃 表 (skip list) 。 它 利用 链表 中 节点 的 额外 链接 ， 在 每 次 搜索 过 程 中 一 次 就 可 跳 过 链表 
的 大 部 分 节点 。 

图 13-22 给 出 了 一 个 简单 例子 ， 其 中 有 序 链表 中 每 隔 三 个 节点 就 包含 一 个 额外 链接 ， 该 链 
接 允 许 跳 过 链表 的 三 个 节点 。 我 们 可 以 利用 这 个 额外 链接 来 加 快 搜索 的 过 程 : 在 顶层 的 链表 
进行 扫描 ， 直 到 找到 该 关键 字 ， 或 遇 到 一 个 含有 较 小 关键 字 且 有 一 个 指向 含有 较 大 关键 字 的 
节点 的 链接 的 节点 为 止 ， 然 后 就 利用 底部 的 链接 来 检查 中 间 的 两 个 节点 。 这 种 方法 可 使 搜索 
加 快 3 倍 ， 因 为 我 们 对 表 中 第 K 个 节点 进行 成 功 搜索 中 只 检查 大 约 kK/3 个 节点 。 


图 13-22 两 级 链表 
注 ， 在 这 个 表 中 每 也 三 个 节点 都 有 第 二 个 链接 ， 因 而 我 们 能 够 沿 着 第 一 个 链接 以 几乎 三 倍 的 速度 跳跃 地 穿 过 链 
表 。 例 如 ， 我 们 可 以 从 表 的 开始 只 沿 着 5 个 链接 即 可 到 达 表 中 的 第 12 个 节点 P， 过 程 是 沿 着 到 C、G、L、N 
的 第 二 个 链接 ， 经 过 N 的 第 一 个 链接 到 达 P。 

我 们 可 重复 使 用 这 个 结构 ， 提 供 第 二 个 额外 链接 ， 以 便 能 够 在 带 有 额外 链接 的 节点 中 更 
快 地 扫描 。 而 且 ， 我 们 可 以 推广 这 个 结构 ， 使 每 个 链接 跳 过 数量 不 定 的 节点 。 

定义 13.5 “跳跃 表 是 一 个 有 序 链 表 ， 其 中 每 个 节点 包含 不 定数 量 的 链接 ， 节 点 中 的 第 ;个 
链接 构成 的 单 向 链表 跳 过 含有 少 于 i 个 链接 的 节点 。 

图 13-23 描 述 了 一 个 跳跃 表 的 例子 ， 并 显示 了 一 个 搜索 并 插入 新 节点 的 例子 。 为 了 进行 搜 
索 ， 我 们 扫描 顶层 链接 ， 直 到 找到 该 搜索 关键 字 或 一 个 关键 字 较 小 的 ， 且 含有 一 个 指向 关键 
字 较 大 的 节点 的 链接 的 节点 ,然后 ,我们 向 下 移 到 第 2 层 链表 并 重复 这 个 过 程 ， 如 此 继续 下 去 ， 
直到 找到 搜索 关键 字 或 在 底层 发 生 搜索 失败 为 止 。 为 了 进行 插入 ， 我 们 先 搜 索 ， 如 果 新 节点 
有 至 少 k 个 额外 链接 ， 风 从 第 k 层 移 到 第 1 层 时 把 该 节点 链接 到 表 中 。 





图 13-23 ”跳跃 表 中 的 搜索 和 插入 


注 : 通过 向 图 中 加 入 更 多 的 层次 ， 并 允许 链接 跳 过 不 定数 量 的 节点 ， 我 们 就 得 到 了 一 个 一 般 跳 跃 表 的 例子 。 为 
了 在 表 中 搜索 一 个 关键 字 ， 我 们 从 最 高 层 开 始 ， 每 当 遇 到 一 个 不 小 于 搜索 关键 字 的 关键 字 就 向 下 移动 。 这 
里 (上 图 ) 搜索 工 的 过 程 是 : 从 第 3 层 开 始 ， 延 着 第 一 个 链接 ， 在 G 处 向 下 移动 (把 空 链接 看 作 指向 观察 哨 
的 一 个 链接 ) ， 然 后 到 达 I， 再 向 下 移动 到 第 2 层 ， 因 为 S 大 于 L， 接 着 向 下 移动 到 第 1 层 ， 因 为 M 大 于 L。 要 
插入 带 有 3 个 链接 的 节点 L， 我 们 把 它 链 接 到 三 重 链表 中 ， 其 位 置 恰恰 就 是 搜索 过 程 中 我 们 找到 的 指向 更 大 
关键 字 的 链接 处 。 
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这 些 节点 的 内 部 表示 很 直观 。 我 们 用 一 个 链接 数组 取代 单 向 链表 中 的 单个 链接 和 表示 节 
点 中 包含 的 链接 数 的 整数 。 内 存 管理 也 许 是 跳跃 表 最 复杂 的 一 面 一 一 当 我 们 考虑 插入 时 ， 需 
要 快速 地 检查 进行 新 节点 分 配 的 类 型 声明 和 代码 。 暂 时 ， 注 意 到 : 我 们 可 以 通过 访问 
t->next[k]， 来 访问 跳跃 表 中 第 K+1 层 上 节点 t 后 的 节点 ， 这 一 点 就 足够 了 。 程 序 13.7 的 递归 
实现 说 明了 跳跃 表 中 的 搜索 不 仅 是 单 向 链表 中 搜索 的 直接 推广 ， 而 且 和 二 又 树 搜索 或 者 BST 
中 的 搜索 类 似 。 我 们 测试 当前 节点 是 否 具有 搜索 关键 字 。 如 果 没 有 ， 我 们 把 当前 节点 的 关键 
字 和 搜索 关键 字 进 行 比较 ， 如 果 前 者 较 大 ， 则 进行 一 种 递归 调用 ， 如 果 前 者 较 小 ， 则 进行 另 
一 种 递归 调用 。 

程序 13.7 ”跳跃 表 中 的 搜索 有 

对 于 在 单 链 表 中 的 搜索 ， 当 k 等 于 0 时 ， 这 个 代码 等 价 于 程序 12.5。 对 于 一 般 K， 如 果 链 表 
中 第 k 层 的 下 一 个 节点 的 关键 字 小 于 搜索 关键 字 ， 我 们 移 到 该 节点 ， 如 果 不 小 于 ， 则 向 下 移 到 
的 第 k-1 层 。 为 了 简化 代码 ， 我 们 假设 所 有 链表 以 一 个 观察 哨 节 点 z 结 束 。 该 节点 的 NULLitenm 
设置 为 naxKey。 


Item searchR(link t, Key v, int k) 
{ if (t == z) return NULLitem; 
if (eq(v, key(t->item))) return t->item; 
if (less(v, key(t->next[k]->item))) 
{ 
if (k == 0) return NULLitem; 
return searchR(t, v, k-1); 
} 
return searchR(t->next[k], v, k); 
} 
Item STsearch(Key v) 
{ return searchR (head, v, lgN); } 


当 我 们 希望 向 跳跃 表 中 揪 入 一 个 新 节点 时 ， 要 面 对 的 第 一 个 任务 是 确定 我 们 希望 该 节点 
有 多 少 个 链接 。 所 有 节点 至 少 有 一 个 链接 。 按 照 图 13-22 中 描述 ， 如 果 每 ! 个 节点 中 就 有 一 个 市 
点 的 链接 至 少 是 两 个 ， 则 我 们 可 以 在 第 2 层 上 每 次 跳 过 :个 节点 ， 不 断 地 选 代 ， 直 到 每 上 个 节点 
中 ， 就 有 一 个 节点 至 少 有 片 1 个 链接 。 

为 使 节点 具有 这 样 的 性 质 ， 我 们 使 用 一 个 以 概率 1/# 返回 诸 1 的 值 的 函数 进行 随机 化 。 给 
j， 创 建 一 个 带 有 j 个 链接 的 新 节点 ， 并 利用 和 搜索 操作 同样 的 递归 方法 (如 图 13-23 所 示 ) 把 
它 插入 到 跳跃 表 。 到 达 第 j 层 之 后 ， 每 次 移动 到 下 一 层 就 把 新 节点 链接 到 表 中 。 最 终 ， 我 们 就 
创建 了 当前 节点 的 数据 项 小 于 搜索 关键 字 ， 并 且 (在 第 j 层 上 ) 链接 到 一 个 关键 字 不 小 于 搜索 
关键 字 的 节点 。 

为 了 初始 化 跳跃 表 ， 我 们 创建 一 个 头 节 点 ， 它 含有 我 们 允许 的 表 中 层 数 的 最 大 值 ， 且 所 
有 层 都 有 指向 包含 观察 哨 关 键 字 的 尾 节点 的 指针 。 程 序 13.8 和 程序 13.9 实 现 了 跳跃 表 的 初始 化 
和 插入 操作。 


程序 13.8 跳跃 表 的 初始 化 ， i 

跳跃 表 中 的 节点 有 一 个 链表 数组 ， 因 而 NEW 函 数 需要 为 数组 分 配 空间 ， 并 对 指向 观察 哨 z 

的 所 有 链接 进行 设置 。 常 量 1gNmax 表 示 表 中 允许 的 最 大 层 数 ;对 于 小 的 链表 设置 为 5， 大 的 链 

表 设 置 为 30。 和 往常 一 样 ， 变 量 N 记 录 链 表 中 的 数据 项 数 ，1gN 为 层 数 。 空 表 是 带 有 1gNmax 个 
链接 的 头 节点 ， 都 设置 为 2Z， 且 N 和 1gN 都 设置 为 0。 
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typedef struct STnode* link; 

struct STnode { Item item; link* next; int sz; }; 
static link head, Zz; 

static int N, lgN; 

link NEW(Item item, int k) 

{ int i; link x = malloc(sizeof *x); 
x->next = malloc(k*sizeof (link)); 
x->item = item; x->sz = k; 
for (i = 0; i < k; i++) x->next[i] = z; 
return x; 

} 

void STinit(int max) 
{ 
N= 0; lgN = 0; 
z = NEW(NULLitem, 0); 
head = NEW(NULLitem, lgNmax+1); 
} 


程序 13:9 “跳跃 表 的 插入 


要 把 一 个 数据 项 插入 到 跳跃 表 中 ， 我 们 以 概率 1/2 产生 一 个 新 的 有 j 个 链接 的 节点 ， 然 后 完 
全 沿 着 程序 13.7 中 搜索 路 径 行进 ， 但 我 们 向 下 进行 时 新 节点 中 的 链接 指向 底部 个 层 的 每 层 上 。 
int randX() 
{ int i, j, t = rand(); 
for (i = 1, j = 2; i < lgNmax; i++, j += j) 
if (t >. RAND_MAX/j) break; 
if (i > LEN) lgN = i; 
return 工 ; 
} 
void insertR(link t, link x, int k) 
{ Key v = key(x->item); 
if (less(v, key(t->next[k]->item))) 
{ 
if (Kk < x->sz) 
{ x->next [k] = t->next [X] ; 
t->next[k] = x; } 
if (k == 0) return; 
insertR(t, x, k-1); return; 
} 
insertR(t->next [Kk] , x, k); 
} 
void STinsert (Item item) 
{ insertR(head, NEW(item, randX()), lgN); N++; } 


图 13-24 显 示 了 以 随机 次 序 插入 一 个 示例 关键 字 集 合 时 ， 跳 跃 表 的 构造 过 程 。 图 13-26 则 显 
示 了 对 于 同一 组 关键 字 ， 按 照 递 增 次 序 构造 跳跃 表 的 过 程 。 正 如 随机 化 BST 那 样 ， 跳 跃 表 的 
随机 性 质 并 不 依赖 于 关键 字 的 插入 次 序 。 

性 质 13.10 平均 情况 下 ， 在 参数 为 的 随机 化 跳跃 表 中 进行 搜索 和 插入 操作 需要 大 约 
(logt N)/2 = (1/(2 lg 站) lg N 次 比较 。 
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图 13-24 跳跃 表 的 构造 
注 : 这 个 序列 描述 了 把 带 有 关键 字 A SERRCHIN G 的 数据 项 插入 到 初始 为 空 的 跳跃 表 中 的 过 程 。 节 点 以 概率 
1/27 带 有 (+1) 个 链接 。 

我 们 期 望 跳跃 表 大 约 有 log, N 层 ， 因 为 log, N 大 于 满足 # = N 的 最 小 j。 在 每 一 层 上 ， 我 们 希 
望 在 前 一 层 上 跳 过 大 约 ! 个 节点 ， 且 在 平均 情况 下 ， 移 到 下 一 层 之 前 只 需 检查 ! 个 节点 中 大 约 一 
半 的 节点 。 从 图 13-25 层 数 较 小 的 例子 可 清楚 地 看 到 这 一 点 ， 但 证 明 这 一 点 的 精确 分 析 不 属于 


本 节 内 容 ( 见 第 四 部 分 参考 文献 )。 图 
Ee = 
EE EE EE EE EE EE El EEE rE em mm EclE eel EIE SE! Em 


图 13-25 大 型 跳跃 表 


注 ; 这 个 跳跃 表 是 把 50 个 随机 有 序 的 关键 字 插 入 到 初始 为 空 的 表 中 的 结果 。 我 们 可 以 跟着 8 个 链接 或 更 少 的 链 
接 访 问 任 何 一 个 节点 。 
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图 13-26 用 有 序 关键 字 来 构造 跳跃 表 
注 : 这 个 序列 档 述 了 把 带 有 关键 字 A CE G HIN R S 的 数据 项 插入 到 初始 为 空 的 跑 跃 表 中 的 过 程 。 表 的 随机 性 
质 并 不 依赖 于 关键 字 的 插入 次 序 。 
性 质 13.11 跳跃 表 中 平均 有 (1/(1 一 1))N 个 链接 。 
在 底部 有 N 个 链接 ， 第 一 层 有 N/t 个 ， 第 二 层 大 约 有 N/r 个 ， 以 此 类 推 ， 则 整个 表 中 的 链接 
总 数 大 约 有 


上 


NO + t+ /P+ LN+…) = NI 一 1 国 

选择 一 个 适当 的 值 这 个 问题 直接 引出 时 空 权 衡 的 问题 。 当 1: = 2 时 ， 跳 跃 表 平均 大 约 需 要 
lgN 次 比较 以 及 2N 个 链接 ， 其 性 能 足以 与 我 们 用 BST 得 到 的 最 佳 性 能 媲美 。 对 于 较 大 的 :， 搜 
索 和 插入 的 时 间 会 较 长 ， 但 用 于 链接 的 额外 空间 则 较 少 。 如 果 对 性 质 13.10 的 表达 式 求 微 分 ， 
我 们 选择 t = e 使 得 在 跳跃 表 中 搜索 操作 所 需 的 预期 比较 次 数 达 到 最 小 。 下 表 给 出 了 构造 一 个 
有 N 个 数据 项 的 表 所 需 的 比较 次 数 N lg NN 的 系数 值 。 
t 2 e 3 


4 8 16 
lgt 1.00 1.44 1.58 2.00 3.00 4.00 
tlgt 2.00 1.88 1.89 2.00 2.67 4.00 


如 果 进 行 比较 、 跟 踪 连 接 和 递归 向 下 移动 ， 这 些 操作 导致 的 开销 差异 巨大 ， 我 们 可 以 按 这 些 
数据 进行 更 精确 的 计算 〈 见 练习 13.83 ) 。 
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因为 搜索 时 间 是 对 数 时 间 ， 我 们 可 通过 增加 :， 把 空间 开销 降低 到 与 单 向 链接 (车 紧密 利 
用 空间 的 话 ) 几乎 相等 的 水 平 。 对 运行 时 间 的 精确 估计 依赖 于 对 沿 着 链接 穿越 表 和 向 下 移动 
一 层 的 递归 调用 的 相对 开销 的 评估 。 在 第 16 章 我 们 将 研究 索引 大 型 文件 的 问题 ， 也 将 重新 回 
到 这 类 时 空 权衡 的 问题 上 来 。 

用 跳跃 表 可 直接 实现 其 他 符号 表 函 数 。 例 如 ， 程 序 13.10 利 用 我 们 程序 13.9 对 插入 函数 所 
用 的 同一 个 递归 函数 解 ， 给 出 了 删除 函数 的 一 个 实现 。 要 删除 一 个 节点 ， 我 们 断 开 该 节点 在 
每 一 层 的 链接 (在 插入 中 为 它 设置 连接 的 位 置 )， 当 断 开 它 在 底层 链表 的 连接 后 我 们 释放 该 节 
点 (和 遍历 该 表 执 行 插 入 之 前 的 创建 操作 相对 应 )。 要 实现 选择 操作 ， 我 们 将 链表 合并 ( 见 练 
习 13.78) ， 要 实现 选择 操作 我 们 为 每 一 个 节点 添加 一 个 域 ， 它 给 出 指向 该 节点 的 最 高 层 链接 
所 跳 过 的 节点 数量 ( 见 练 习 13.77)。 


程序 13.10 跳跃 表 的 删除 


要 删除 跳跃 表 中 一 个 包含 给 定 关键 字 的 节点 ， 我 们 找到 每 一 层 连 接 到 它 的 链接 并 断 开 。 
当 到 达 最 底层 时 就 释放 该 节点 。 
void deleteR(link t, Key v, int kK) 
{ Link x = t->next[k]; 
if (!less(key(x->item), Vv)) 
{ 
if (eq(v, key(x->item))) 

{ t->next[k] = x->next[k]; } 
if (k == 0) { free(x); return; } 
deleteR(t, v, k-1); return; 

了 
deleteR(t->next [k] , v, k); 
} 
void STdelete(Key v) 
{ deleteR(head, v, lgN); N--; } 


尽管 跳跃 表 作 为 快速 穿越 链表 的 一 种 系统 方法 ， 很 容易 概念 化 ， 但 理解 它 也 是 很 重要 的 ， 

跳跃 表 的 基本 数据 结构 只 不 过 是 平衡 树 的 另 一 种 表示 而 已 。 例 如 ， 图 13-27 显 示 了 图 13-10 的 

平衡 2-3-4 树 的 跳跃 表 表 示 。 我 们 可 以 利用 跳跃 表 抽 象 而 不 是 13.4 节 的 红 黑 树 抽象 ， 来 实现 
13.3 节 的 平衡 2-3-4 树 算法 ， 所 得 的 代码 比 我 们 讨论 过 的 实现 方法 要 复杂 一 些 ( 见 练习 13.80)。 
我 们 将 在 第 16 章 重新 探讨 跳跃 表 和 平衡 树 之 间 的 关系 。 

图 13-22 显 示 的 理想 化 的 跳跃 表 是 一 种 稳固 的 结构 ， 当 插入 一 个 新 节点 时 ， 很 难 对 该 结构 
进行 维护 ， 就 像 有 序数 组 对 于 二 分 搜索 那样 ， 因 为 插入 操作 需要 在 播 入 节点 后 修改 所 有 节点 
的 所 有 链接 。 使 该 结构 易于 维护 的 一 种 途径 是 在 建立 的 链表 中 ,使 每 个 链接 跳 过 下 一 层 的 1I 个 、 
2 个 或 3 个 链接 ， 这 种 安排 对 应 于 2-3-4 树 ， 如 图 13-27 所 示 。 本 节 讨 论 的 随机 化 算法 是 松弛 这 个 
结构 的 一 种 高 效 方法 ， 我 们 将 在 第 16 章 考虑 其 他 的 方法 。 

Er 9 
本 二 二 辐 辣 辐 辐 峡 同 
图 13-27 一 棵 2-3-4 树 的 跳跃 表 表 示 
注 : 这 个 跳跃 表 是 图 13-10 中 2-3-4 树 的 一 种 表示 。 一 般 而 言 ， 跳 跃 表 对 应 着 每 个 节点 (对 许 无 关键 字 和 一 个 链 
接 的 |- 节 点 ) 中 含有 一 个 或 多 个 链接 的 平衡 多 路 得。 要 构造 一 个 对 应 一 棵 树 的 跳跃 表 ， 我 们 把 每 个 节点 的 


链接 数 设 置 为 它 在 树 中 的 高 度 ， 人 然后 水 平地 把 这 些 节 点 链接 起 来。 要 构造 一 棵 对 应 跳跃 表 的 树 ， 我 们 把 跳 
跃 的 节点 进行 分 组 ， 且 递归 地 把 它们 链接 到 下 一 层 的 节点 上 。 
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练习 

13.75 画 出 按照 以 下 顺序 把 带 有 关键 字 EASYQUTIONKN 的 数据 项 插 人 到 一 棵 初始 为 空 的 
表 中 所 得 的 跳跃 表 。 假 设 randX 返 回 的 值 序列 为 1、3、1、1、2、2、1、4、1 和 1。 

>13.76 ”和 画 出 按照 以 下 顺序 把 带 有 关键 字 A EIN O Q STU Y 的 数据 项 插入 到 一 棵 初始 为 空 的 
表 中 所 得 的 跳跃 表 。 假 设 randX 返 回 的 值 序列 同 练习 13.75。 

13.77 ”实现 基于 跳跃 表 的 符号 表 的 选择 操作 。 

。13.78 ”实现 基于 跳跃 表 的 符号 表 的 连接 操作 。 

>13.79 ”修改 程序 13.7 和 程序 13.9 中 给 出 的 search 操 作 和 insert 操 作 的 实现 ， 使 用 NULL 作 为 表 结 
东 标 志 ， 而 不 是 使 用 观察 哨 节 点 。 
of13.80 ”使 用 跳跃 表 来 实现 带 有 平衡 2-3-4 树 抽象 的 符号 表 中 的 initialize 操 作 、search 操 作 和 


insert 操 作 。 
o13.81 使 用 程序 13.9 中 的 randX( ) 函 数 ， 构 建 一 个 参数 为 t 的 跳跃 表 ， 平 均 需 要 多 少 个 随 
机 数 ? | 


013.82 对 于 ! = 2， 修 改 程序 13.9， 消 除 randX 中 的 for 循 环 。 提示 ， 在 数 t 的 二 进 制 表示 中 最 
后 /位 假设 是 以 概率 1/2 的 任何 /位 的 值 。 

13.83 ”对 以 下 情况 选择 适当 的 : 值 ， 使 搜索 开销 最 小 ， 和 执行 一 次 比较 操作 的 开销 相 比 ， 跟 
踪 一 个 链接 的 开销 是 它 的 a 倍 ， 移 动 到 下 一 层 递归 是 它 的 B 倍 。 

o13.84 开发 一 个 跳跃 表 实 现 ， 节点 中 拥有 指针 本 身 ， 而 不 像 程序 13.7 到 13.10 中 那样 ， 拥 有 指 
向 一 个 指针 数组 的 指针 。 提 示 : 把 数组 放 到 sTnode 的 末尾 。 


13.6 ”性 能 特征 


对 于 一 个 特定 的 应 用 ， 我 们 怎样 在 随机 BST、 伸 展 BST、 红 黑 BST 和 跳跃 表 之 间 进 行 选择 
呢 ? 我 们 已 经 把 注意 力 集 中 于 这 些 算法 的 性 能 保证 的 不 同性 质 上 。 时 间 和 空间 永远 是 考虑 的 
主要 因素 、 但 我 们 还 必须 考虑 到 一 些 其 他 因素 。 在 本 节 中 ， 我 们 将 简要 讨论 实现 问题 、 实 验 
研究 以 及 对 运行 时 间 和 需求 空间 的 估算 。 

所 有 基于 树 的 算法 都 依赖 旋转 。 沿 着 搜索 路 径 的 旋转 实现 是 大 多 数 平衡 树 算法 的 一 个 核 
心 要素 。 我 们 已 经 使 用 过 递归 实现 方式 ， 隐 含 地 把 指向 搜索 路 径 上 的 节点 的 指针 保存 在 递归 
栈 中 的 局 部 变量 中 。 但 是 每 一 种 算法 都 可 以 用 一 种 非 递 归 方 式 实现 一 一 在 一 次 自 顶 向 下 遍历 
树 的 过 程 中 ， 操 作 在 常数 个 节点 上 ， 并 对 每 个 节点 执行 常数 次 链接 操作 。 

随机 化 BST 是 三 种 基于 树 的 算法 中 最 容易 实现 的 一 个 。 主 要 的 要 求 是 对 随机 数 生成 器 有 
信息 ， 并 避免 花费 太 多 时 间 生 成 随机 位 。 伸 展 BST 稍 微 复杂 一 些 ， 却 是 标准 根 插入 法 的 一 种 
直接 扩展 。 红 黑 BST 还 需要 涉及 稍 多 一 点 的 代码 ， 以 便 检查 并 操纵 颜色 位 。 红 黑 树 相对 其 他 


两 者 的 一 个 优点 ， 就 是 颜色 位 可 用 于 调试 中 的 一 致 性 检测 ， 并 可 作为 在 树 的 生存 期 内 任何 时 ，. 
刻 的 一 次 快速 搜索 的 保障 。 从 对 一 棵 伸展 BST 的 检查 中 无 法 知道 产生 该 树 的 代码 是 否 完成 了 ， 
所 有 正确 的 转换 工作 ， 一 个 错误 可 能 (也 只 能 ) 导致 性 能 问题 。 类 似 地 ， 随 机 化 BST 或 跳跃 . 


表 的 随机 数 生成 器 的 一 个 错误 也 可 能 导致 其 他 不 太 引 起 注意 的 性 能 问题 。 


跳跃 表 易 于 实现 ， 而 且 如 果 要 支持 全 部 符号 表 操作 ， 它 是 特别 共有 吸引 力 的 方案 ， 因 为 ， 
搜索 、 插 入 、 删 除 、 连 接 、 选 择 和 排序 等 操作 都 具有 易于 形式 化 的 自然 实现 方法 。 跳 跃 表 中 ， 


搜索 操作 的 内 层 循环 比 树 结构 要 长 ( 它 涉及 指向 指针 数组 的 一 个 额外 索引 ， 或 者 向 下 移动 到 
下 一 层 的 一 个 额外 递归 调用 ) ， 因 此 搜索 和 插入 所 需 的 时 间 也 较 长 。 跳 跃 表 也 使 程序 员 受 到 随 
机 数 生 成 器 的 支配 一 一 调试 一 个 行为 随机 化 的 程序 的 确 是 一 个 很 大 的 挑战 ， 而 一 些 程序 员 会 
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。 发 现 ， 和 拥有 随机 数量 的 链接 的 节点 打交道 尤其 使 人 不 安 。 

表 13-1 给 出 了 我 们 在 本 章 中 讨论 过 的 四 种 方法 以 及 来 自 第 12 章 的 基本 BST 实 现 方法 性 能 的 
实验 数据 ， 其 中 所 针对 的 关键 字 是 随机 32 位 整数 。 表 中 的 信息 证 实 了 我 们 在 13.2 节 、13.4 节 和 
13.5 节 中 对 分 析 结 果 所 做 的 预测 。 对 于 随机 关键 字 ， 红 黑 BST 比 其 他 方法 快 得 多 。 红 黑 BST 中 
的 路 径 长 度 比 随机 化 BST 或 伸展 BST 短 35%， 而 且 在 内 层 循环 中 进行 的 处 理 也 较 少 。 随 机 化 树 
和 跳跃 表 要 求 我 们 对 每 次 插入 操作 生成 至 少 一 个 新 的 随机 数 ， 而 伸展 BST 对 每 次 插入 和 搜索 
都 需要 在 每 个 节点 进行 一 次 旋转 操作 。 相 比 之 下 ， 红 黑 BST 的 开销 是 在 插入 期 间 必须 为 每 个 
节点 检查 2 位 的 数值 ， 并 偶尔 需要 执行 一 次 旋转 。 对 于 不 均匀 的 访问 ， 伸 展 BST 也 许 使 用 较 短 
的 路 径 ， 但 这 些 节 省 开销 可 能 被 抵消 ， 因 为 在 内 层 循 环 中 ， 搜 索 和 插入 操作 都 涉及 每 个 节点 
处 的 旋转 操作 ， 只 有 极端 的 情况 例外 。 

表 13-1 平衡 树 实现 的 实验 研究 


对 于 各 种 不 同 的 值 N, 以 及 N 个 32 位 整数 的 随机 序列 ,构建 和 搜索 BST 的 相对 时 间 表 明了 所 有 方法 的 性 能 都 很 好 ， 
即使 对 于 较 大 的 表 也 不 例外 。 但 是 红 黑 树 要 比 其 他 方法 快 得 多 。 所 有 这 些 方 法 都 使 用 标准 BST 搜 索 ， 只 有 两 种 方法 例 
外 : 对 于 伸展 树 ， 在 伸展 搜索 过 程 中 ， 把 经 常 访问 的 关键 字 带 到 树 的 顶部 ， 对 于 跳跃 表 ， 它 使 用 相同 的 算法 ， 但 不 


同 的 基本 数据 结构 。 
构造 搜索 失败 
N = 
B T R $ C L B T R S C L 
1250 0 1 3 2 1 2 1 1 0 0 0 2 
2500 2 4 6 3 1 4 1 1 1 2 1 3 
5000 4 7 14 8 5 10 3 3 3 3 2 7 
12500 11 23 43 24 16 28 10 9 9 9 7 18 
25000 27 51 101 50 32 57 19 19 26 21 16 43 
50000 63 114 220 117 74 133 48 49 60 46 36 98 
177 310 118 106 132 112 84 229 


100000 159 277 447 282 
200000 347 、 621 996 636 411 


其 中 : 

B 标准 BST ( 程 席 12.7) 

T 用 根 插入 法 构建 BST (程序 12.12) 

R 随机 BST (程序 13.2) 

: S 伸展 BST (练习 13.33 和 程序 13.5) 

: C 红 黑 BST (程序 13.6) 

3 L 跳跃 表 (程序 13.7 和 程序 13.9) 

“伸展 BST 无 需 对 平衡 信息 使 用 额外 空间 ， 红 黑 BST 需 要 额外 的 1 位 ， 而 随机 化 BST 则 需要 
1 一 个 计数 域 。 对 于 许多 应 用 来 说 ， 这 个 计数 域 是 出 于 其 他 原因 而 维持 的 ， 所 以 对 于 随机 化 
1 BsT 这 也 许 并 不 代表 着 额外 的 开销 。 实 际 上， 如果 使 用 伸展 BST、 红 黑 BST 或 跳跃 表 的 话 ， 我 
| 们 可 能 需要 这 个 域 。 若 有 必要 ， 我 们 可 以 通过 去 掉 颜 色 位 ， 使 红 黑 BST 像 伸展 BST 那 样 高 效 地 
中 利用 空间 ( 见 练习 13.65)。 在 现代 应 用 中 ， 空 间 的 重要 程度 已 经 降低 ， 虽 然 它 曾经 一 度 是 编 
， 程 的 首要 问题 ， 但 细心 的 程序 员 依然 必须 对 资源 浪费 保持 警觉 。 例 如 ， 我 们 必须 清楚 地 意识 

， 到 ， 某 些 系 统 使 用 整个 32 位 的 存储 字 来 表示 节点 中 的 计数 域 或 者 一 位 颜色 域 ， 而 另外 一 些 系统 
也 许 在 内 存 中 压缩 这 些 域 ， 以 至 于 解压 过 程 需要 大 量 额外 的 时 间 。 如 果 空间 紧张 ， 具 有 较 大 参 
” 数 ! 的 跳跃 表 可 以 把 用 于 链接 的 空间 减 小 近 一 半 ， 付 出 的 代价 是 搜索 速度 减缓 ， 但 仍 处 于 对 数 
水 平 。 通 过 某 些 规划 ， 也 可 以 把 基于 树 的 方法 用 每 节点 的 一 个 链接 来 实现 ( 见 练习 12.65)。 
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总 之 ， 我 们 在 本 章 讨论 过 的 所 有 方法 都 将 为 典型 应 用 提供 良好 的 性 能 ， 对 于 有 兴趣 开发 
出 高 性 能 符号 表 实 现 的 人 们 来 说 ， 它 们 各 有 优点 。 伸 展 BST 作 为 一 种 自 组 织 搜索 方法 将 提供 
良好 的 性 能 ， 尤 其 当 频 繁 访问 一 个 小 型 关键 字 集 合成 为 应 用 的 典型 模式 上 时， 而 对 于 一 个 全 功 
能 的 符号 表 BST， 随 机 化 BST 可 能 更 快 、 更 容易 实现 ， 跳 跃 表 易于 理解 ， 而 且 能 够 以 少 于 其 他 
方法 的 空间 提供 对 数 水 平 的 搜索 性 能 ， 红 黑 BST 对 于 符号 表 库 实现 极 具 吸引 力 ， 因 为 它们 在 
最 坏 情况 下 可 提供 得 到 保障 的 性 能 界限 ， 还 能 提供 对 应 随机 数据 的 最 快 的 搜索 和 插入 算法 。 

除了 在 许多 应 用 中 的 特定 用 途 外 ， 针 对 “为 符号 表 ADT 开 发 出 高 效 实现 方案 ”的 一 套 解 
决 方案 还 有 十 分 重要 的 意义 ， 因 为 它 在 我 们 考虑 其 他 问题 的 解决 方案 时 ， 展 示 了 可 供 选 择 的 
算法 设计 基本 途径 。 在 我 们 对 简单 、 最 优 算法 的 不 断 追 求 中 ， 常 常 遇 到 接近 最 优 的 算法 ， 例 
如 本 章 讨论 的 算法 。 而 且 ， 正 如 我 们 在 排序 算法 中 所 见 的 那样 ， 像 这 些 基 于 比较 的 算法 仅仅 
是 个 开始 ， 通 过 转向 一 个 更 低层 次 的 抽象 (其 中 我 们 可 以 逐个 处 理 关 键 字 ) ， 我 们 甚至 可 以 开 
发 出 比 本 章 讨 论 的 更 快速 的 实现 方法 ， 在 第 14 章 和 第 15 章 我 们 将 体会 到 这 一 点 。 
练习 
13.85 ”使 用 随机 化 BST， 为 带 有 客户 数据 项 句柄 的 一 级 符号 表 ADT ( 见 练习 12.4 和 练习 12.5) 
开发 一 个 跳跃 表 实 现 ， 它 支持 初始 化 、 计 数 、 搜 索 、 插 入 、 删 除 、 连 接 、 选 择 和 排序 操作 。 
13.86 ”使 用 跳跃 表 ， 为 带 有 客户 数据 项 句柄 的 一 级 符号 表 ADT ( 见 练习 12.4 和 练习 12.5) 开 
发 一 个 跳跃 表 实 现 ， 它 支持 初始 人 化、 计数、 搜索、 插入、 删除、 连接 、 园 择 和 排序 操作 。 


vy 
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我 们 前 面 介绍 的 搜索 算法 是 基于 抽象 比较 操作 的 。 与 此 实质 不 同 的 是 12.2 节 中 的 关键 字 索 
引 的 搜索 方法 。 在 该 方法 中 ， 我 们 把 带 有 关键 字 ; 的 元 素 存 储 在 表 的 第 ;个 位 置 ， 使 其 可 以 直接 
访问 。 关 键 字 索 引 的 搜索 算法 使 用 关键 字 值 作为 数组 下 标 ， 而 不 是 对 关键 字 值 进行 比较 。 而 
且 该 算法 依赖 的 关键 字 值 是 落 入 表 索 引 的 同一 区 域 的 不 同 整数 。 在 这 一 章 里 ， 我 们 将 考虑 散 
列 (hash) 方法 ， 它 是 关键 字 索 引 搜索 算法 的 一 种 扩展 ， 可 处 理 许多 具有 不 规则 特性 的 关键 
字 的 典型 搜索 应 用 。 这 种 方法 并 非 在 词典 数据 结构 中 ， 通 过 比较 搜索 关键 字 与 元 素 中 的 关键 
字 来 实现 搜索 ， 而 是 试图 通过 算术 运算 将 关键 字 转 换 成 表 中 地 址 来 直接 引用 表 中 的 元 素 。 最 
终 所 得 结果 与 基于 比较 的 搜索 算法 完全 不 同 。 

散 列 搜索 算法 由 两 部 分 组 成 。 第 一 步 是 计算 一 个 敷 列 函数 ， 它 将 搜索 关键 字 转 换 成 表 中 
地 址 。 理 想 的 情况 是 不 同 的 关键 字 应 该 映射 到 不 同 的 地 址 ， 但 经 常 出 现 两 个 或 多 个 关键 字 对 
应 表 中 同一 地 址 的 情况 。 处 理 这 种 关键 字 的 过 程 就 是 散 列 搜索 算法 的 第 二 步 一 一 冲突 解决 。 
我 们 将 要 研究 的 解决 冲突 的 方法 之 一 是 使 用 链表 ， 这 种 方法 对 搜索 关键 字数 目 无 法 预知 的 动 
态 环境 非常 有 用 。 另 外 两 种 解决 冲突 的 方法 可 以 实现 对 固定 数组 上 存储 的 元 素 进 行 快速 搜索 。 
另外 ， 我 们 还 将 改进 这 些 方法 ， 以 应 对 我 们 无 法 预知 表 长 的 情况 。 

散 列 方法 是 时 空 权衡 的 一 个 很 好 的 例子 。 如 果 没 有 内 存 大 小 的 限制 ， 我 们 可 以 简单 地 使 
用 关键 字 作为 内 存 地 址 ， 只 需 访 问 一 次 内 存 就 能 执行 搜索 操作 ， 就 像 关键 字 索 引 中 那样 。 但 
是 ， 当 关键 字 较 长 ， 所 需要 的 内 存 空 间 无 法 满足 时 ， 上 述 理想 情况 就 不 能 实现 。 另 一 方面 ， 
如 果 疫 有 搜索 时 间 的 限制 ， 我 们 可 以 使 用 顺序 搜索 算法 ， 只 用 最 少量 的 存储 空间 ， 也 可 达到 
上 述 情况 。 散 列 提供 了 一 种 合理 使 用 存储 空间 和 搜索 时 间 的 方法 来 达到 两 者 的 平衡 。 特 别 是 ， 
仅仅 通过 调节 散 列 表 的 大 小 而 不 用 重 写 代码 或 者 选择 不 同 算法 ， 就 可 以 达到 我 们 所 需要 的 平 
衡 状 态 。 

散 列 是 计算 机 科学 中 的 经 典 问题 ， 各 种 算法 得 到 深入 研究 和 广泛 使 用 。 我 们 可 以 看 到 ， 
在 某 些 宽松 的 假设 条 件 下 ， 期 望 搜 索 和 插入 符号 表 的 时 间 为 常量 ， 且 与 表 的 大 小 无 关 也 是 合 
理 的 。 

这 个 期 望 对 任何 符号 表 的 实现 来 说 是 在 理论 上 达到 最 优 性 能 ， 但 由 于 以 下 两 个 原因 ， 散 
列 方法 并 不 是 万 能 的 。 第 一 ， 运 行 时 间 依 赖 于 关键 字 的 长 度 ， 这 对 于 带 有 长 关键 字 的 实际 应 
用 十 分 不 利 ; 第 二 ， 对 于 符号 表 的 其 他 操作 ， 如 选择 和 排序 ， 散 列 方法 并 不 能 提供 高 效 的 实 
现 方 法 。 我 们 将 在 本 章 详细 讨论 上 述 以 及 其 他 问题 。 


14.1 散 列 函数 


我 们 要 提 的 第 一 个 问题 是 散 列 函 数 的 计算 ， 它 能 将 关键 字 值 转换 成 表 中 地 址 。 这 个 算术 
运算 通常 很 容易 实现 ， 但 我 们 也 必须 仔细 处 理 以 避免 出 现 各 种 细微 的 问题 。 如 果 我 们 有 一 个 
能 容纳 M 个 元 素 的 表 ， 那 么 我 们 需要 一 个 能 将 关键 字 转 换 成 [0, M 一 1] 范 围 内 的 整数 的 函数 。 理 
想 的 散 列 函数 要 易于 计算 并 且 近 似 为 一 个 随机 函数 .对 于 每 个 输入 ， 每 个 输出 等 概率 出 现 。 

散 列 函 数 与 关键 字 的 类 型 有 关 。 严 格 地 说 ， 对 于 每 一 种 可 能 用 到 的 关键 字 ， 我 们 需要 不 
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同 的 散 列 函数 。 出 于 效率 的 考虑 ， 通 常 希望 避免 显 式 类 型 转换 ， 而 是 将 机 器 码 中 关键 字 的 二 
进 制 表示 看 作用 来 进行 算术 计算 的 整数 。 在 早期 的 计算 机 内 部 ， 散 列 先 于 高 级 语言 把 一 个 值 
首先 看 作 是 一 个 字符 串 型 数据 ， 其 次 才 看 作 是 一 个 整 型 数据 。 某 些 高 级 语言 难以 编写 一 个 依 
赖 于 关键 字 在 特定 计算 机 上 的 表示 的 程序 ， 因 为 这 些 程序 本 身 的 特性 依赖 于 特定 机 器 ， 因 此 
使 它们 很 难 移植 到 新 的 或 不 同 的 计算 机 上 。 散 列 函 数 通常 依赖 于 将 关键 字 转 换 为 整数 的 过 程 ， 
因此 ， 用 散 列 实现 的 方法 很 难 做 到 既 独 立 于 机 器 同时 效率 又 高 。 我 们 可 以 使 用 一 条 机 器 指令 
对 简单 的 整 型 或 浮 点 型 关键 字 进 行 散 列 ， 但 对 字符 串 或 其 他 复合 类 型 的 关键 字 ， 我 们 需要 仔 
细 并 给 予 更 多 的 关注 才能 提高 效率 。 

最 简单 的 情况 可 能 是 将 固定 范围 内 已 知 的 浮 点 数 作 为 关键 字 。 例 如 ， 关 键 字 是 0 到 1 之 间 
的 数 ， 我 们 可 以 把 每 一 个 数 乘 以 M， 然 后 取 最 接近 的 整数 ， 得 到 0 到 M 一 1 之 间 的 整数 地 址 。 图 
14-1 给 出 了 一 个 例子 。 对 于 固定 的 数 s: 和 :1， 如 果 关 键 字 大 于 s 小 于 :， 则 可 以 通过 减 s 再 除 以 (1 一 
5)， 就 得 到 0 和 1 之 间 的 范围 。 然 后 把 结果 乘 以 M 就 得 到 一 个 表 中 地 址 。 


.513870656 
.175725579 
.308633685 
.534531713 
.947630227 
.171727657 
.702230930 
.226416826 
.494766086 
.124698631 
.083895385 
.389629811 
.277230144 
.368053228 
.983458996 
.535386205 
.765678883 
.646473587 
.767143786 
.780236185 
.822962105 
.151921138 
.625476837 
.314676344 
.346903890 





图 14-1 用 于 浮 点 型 关键 字 的 乘法 散 列 函数 
注 : 为 把 0 和 1 之 间 的 浮 点 型 数字 转换 成 大 小 为 97 的 表 的 下 标 ， 我 们 将 浮 点 型 数字 分 别 乘 以 97。 在 这 个 例子 中 ， 
17、53 和 76 处 有 三 次 冲突 ， 且 关键 字 的 前 几 位 决定 散 列 值 ; 关键 字 的 后 几 位 对 散 列 值 没有 影响 。 散 列表 数 

设计 的 目标 是 避免 这 样 的 不 平衡 ， 使 得 数据 的 每 一 位 在 计算 中 都 起 作用 。 
如 果 关 键 宇 是 w- 位 的 整数 ， 我 们 可 以 把 它们 转换 成 浮 点 数 ， 通 过 除 以 2" 来 得 到 0 和 1 之 间 
的 浮 点 数 ， 然 后 ， 再 像 上 面 一 样 乘 以 M 得 到 表 中 的 一 个 地 址 。 如 果 浮 点 运算 代价 太 高 ， 且 这 
个 数 不 至 于 大 得 导致 溢出 ， 我 们 可 以 用 整数 算术 运算 来 达到 同样 的 效果 : 先 用 M 乘 以 关键 字 ， 
再 右 移 w 位 来 实现 除 以 2”!( 或 者 ， 如 果 乘 法 会 导致 谥 出 ， 可 以 先 移 位 再 相 乘 ) 的 操作 。 只 有 当 
关键 字 在 某 个 范围 内 平均 分 布 的 时 候 ， 这 种 散 列 函 数 才 是 有 效 的 ， 因 为 散 列 值 只 由 关键 字 的 

前 儿 位 决定 。 
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对 于 w- 位 整数 的 一 种 简单 且 更 有 效 的 方法 ， 也 是 最 常用 的 散 列 方法 ， 是 选择 表 长 M 为 素 
数 ， 对 于 任何 整数 关键 字 ， 计 算 k 除 以 M 的 余数 ， 或 计算 h(k) = kk mod M。h( 情 就 是 模 散 列 函 
数 。 这 种 运算 易于 实现 (在 C 语 言 中 为 k%WM) ， 而 且 可 以 高 效 地 将 小 于 凡 的 整 型 关键 字 均匀 分 散 
开 。 图 14-2 给 出 了 一 个 小 规模 例子 。 





图 14-2 用 于 整数 关键 字 的 模 散 列 函数 


注 : 最 右 篇 的 3 列 显示 了 使 用 函数 (iD) V % 97( 左 边 一 列 ); (ii Vv % 100( 中 间 一 列 ); (iii) (int) (ax*v)%100 (右边 
一 列 )， 把 16- 位 的 关键 字 散 列 后 的 结果 。 其 中 a = 0.618033。 针 对 这 些 函 数 的 表 长 分 别 为 97、100 和 100。 浅 
列 值 的 出 现 是 随机 的 《因为 关键 字 是 随机 的 )。 中 间 的 别 数 (V % 100) 只 使 用 了 关键 字 的 最 右边 的 两 位 ， 
因而 ， 对 于 非 随机 关键 字 ， 这 个 散 列 画 数 的 性 能 较 差 。 


对 浮 点 型 关键 字 也 可 以 使 用 模 散 列 函数 。 如 果 关 键 字 在 一 个 较 小 的 范围 内 ， 我 们 可 以 按 
比例 将 它们 转换 为 0 到 1 之 间 的 数 ， 再 乘 以 2” 以 得 到 w- 位 整数 结果 ， 然 后 使 用 模 散 列 函数 。 另 
一 种 方法 是 使 用 关键 字 的 二 进 制 表 示 (如 果 可 能 的 话 ) 作为 模 散 列 函数 的 操作 数 。 

无 论 关键 字 是 表示 成 机 器 码 的 整数 ， 还 是 压缩 成 一 个 机 器 字 的 一 串 字符 ,或 者 是 其 他 情 
况 ， 只 要 我 们 能 访问 到 组 成 关键 字 的 每 一 位 数字 ， 就 可 以 应 用 模 散 列 方法 。 由 于 有 些 数位 是 
用 来 编码 的 ， 故 组 成 机 器 字 的 一 个 随机 字符 串 与 一 个 随机 整 型 关键 字 有 很 大 不 同 ， 但 我 们 可 
以 使 上 述 两 者 (连同 其 他 类 型 的 机 器 码 关键 字 ) 出 现在 一 个 小 型 表 中 时 是 随机 下 标 。 

图 14-3 解 释 了 我 们 选择 模 散 列表 长 度 M 为 素数 的 原因 。 在 这 个 7 位 编码 字符 数据 的 例子 中 ， 
我 们 把 关键 字 当 作 基 数 为 128 的 数 一 一 在 关键 字 中 每 一 位 数 代表 一 个 字符 。 比 如 ， 与 单词 now 
对 应 的 数 1816567 也 可 以 表示 为 : 

110 . 1282+ 111 . 128! + 119 . 1280 


由 于 字母 "、o 和 w 的 ASCII 码 分 别 为 156。 = 110，157。 =111，168s。 = 119。 这 样 ， 选 择 表 长 
M = 64 不 适合 这 种 类 型 的 关键 字 。 因 为 x mod 64 的 值 不 受 64 (或 128) 的 倍数 与 4 之 和 的 影 
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响 一 一 该 散 列 函 数 对 任何 关键 字 的 返回 值 是 关键 字 的 后 6 位 。 一 个 好 的 散 列 函数 应 用 考虑 关键 
字 的 全 部 位 ， 特 别 是 由 字符 组 成 的 位 。 当 M 的 因子 含有 2 的 宪 的 时 候 ， 类 似 情 况 也 会 发 生 。 因 
此 ， 避 免 这 种 现象 的 最 简单 方法 是 取 MM 为 素数 。 


now 6733767 1816567 55 29 


for 6333762 1685490 50 20 
tip 7232360 1914096 48 1 
ilk 6473153 1734251 43 18 
dim 6232355 1651949 45 21 
tag 7230347 1913063 39 22 
jot 6533764 1751028 52 24 
sob 7173742 1898466 34 26 
nob 6733742 1816546 34 8 
sky 7172771 1897977 57 2 
hut 6435364 1719028 52 16 
ace 6070745 1602021 37 3 
bet 6131364 1618676 52 11 
men 6671356 1798894 46 26 
egg 6271747 1668071 39 23 
few 6331367 1684215 55 16 
jay 6530371 1749241 57 4 
owl 6775754 1833964 44 4 
joy 6533771 1751033 57 29 
rap 7130360 1880304 48 30 
gig 6372347 1701095 39 1 
wee 7371345 1962725 37 22 
was 7370363 1962227 51 20 
cab 6170342 1634530 34 24 
wad 7370344 1962212 36 5 














图 14-3 用 于 编码 字符 的 模 散 列 函数 
注 ， 这 个 表 的 每 一 行星 示 了 一 个 3- 字 符 的 字 ， 该 字 的 ASCII 编 码 为 八进制 和 十 进 制 的 21- 位 编码 数字 ， 采 用 表 大 
小 分 别 为 64 和 31 的 标准 模 散 列 函 数 (最 右边 两 列 ) 。 大 小 为 64 的 表 导 致 了 不 想 要 的 结果 ， 因 为 只 有 关键 字 
最 右边 的 位 对 散 列 值 起 作用 ， 并 且 自 然 语言 字 中 的 字符 分 布 并 不 均匀 。 例 如 。 所 有 以 ?结尾 的 字 部 散 列 到 值 
57。 对 比 之 下 ， 素 数值 31 在 表 中 引起 的 冲突 次 数 少 于 表 大 小 的 一 半 。 
除了 要 求 表 长 为 素数 之 外 ， 模 散 列 没有 什么 难于 实现 之 处 。 对 某 些 应 用 而 言 ， 用 已 知 的 
小 素数 就 可 以 满足 要 求 ， 或 者 我 们 还 可 以 从 已 知 的 素数 表 中 找 一 个 与 表 长 接近 的 素数 来 实 
现 。 例 如 ， 当 ! = 2、3、5、7、13、19 和 31 时 (再 无 其 他 ! < 31 满 足 此 条 件 ) ，2 一 1 的 值 是 素 
数 ， 这 就 是 著名 的 默 森 尼 素 数 (Mersenne prime)。 为 了 对 某 一 个 固定 长 度 的 表 实 现 动态 分 
配 ， 我 们 需要 计算 与 表 长 度 接近 的 素数 ， 这 种 计算 就 不 是 那么 容易 实现 了 (但 我 们 将 在 第 五 
部 分 介绍 一 种 巧妙 的 算法 ) 。 因 此 ， 实 际 应 用 中 ， 我 们 通常 采用 一 个 预先 计算 好 的 表 〈 见 图 
14-4) 。 使 用 模 散 列 久 数 不 是 要 求 表 长 为 素数 的 惟一 原因 ， 我 们 将 在 第 14.4 节 考虑 另外 一 个 
原因 。 
对 于 整数 关键 字 ， 另 一 种 可 供 选 择 的 方法 是 把 乘法 方法 与 取 模 方法 结合 起 来 : 将 关键 字 
乘 以 0 到 1 之 间 的 一 个 常数 ， 然 后 做 模 M 运 算 。 这 相当 于 采用 形 如 A(K) = La| mod M 的 散 列 函 
数 。a、M 和 关键 字 的 有 效 基数 之 间 相互 影响 ， 可 能 导致 异常 行为 ， 但 在 实际 应 用 中 ， 如 果 我 
们 对 a 任意 取 值 ， 将 不 会 出 现 问 题 。 一 个 常用 的 a 值 是 $p = 0.618033…… ( 即 黄金 分 割 比 ) 。 关 
于 a 的 选择 有 很 多 研究 ， 特 别 是 能 够 用 高 效 机 器 指令 (如 移 位 和 掩 码 ) 实现 的 散 列 函数 〈 见 第 
四 部 分 参考 文献 )。 : 
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251 

509 

1021 

2039 

4093 

8191 
16381 
32749 
65521 
131071 
262139 
524287 
1048573 
2097143 
4194301 
8388593 
16777213 
33554393 
67108859 
134217689 
268435399 
536870909 
35 1073741789 
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图 14-4 用 于 散 列表 的 素数 
注 ; 对 于 8<n<32， 表 长 最 大 素数 值 小 于 2" 。 该 表 可 用 于 对 散 列 表 进 行动 态 分 配 ， 要 求 散 列表 的 大 小 为 素数 。 
对 于 所 在 范围 的 任何 给 定 的 正 数 ， 我 们 可 以 使 用 这 个 表 得 到 2 的 倍数 次 旱 以 内 的 一 个 素数 。 

在 很 多 符号 表 应 用 中 ， 关 键 字 不 是 整数 且 位 数 也 不 短 ， 而 是 较 长 的 字母 序列 。 我 们 如 何 
计算 字符 串 averylongkey? 的 散 列 值 呢 ? 在 7 位 ASCII 码 中 ， 该 关键 字 对 应 于 如 下 84 位 整数 : 
97. 1280 + 118 . 128'° + 101. 1289+ 114 .1288 + 121 . 1287 
+ 108 . 1285+ 111 . 1285+ 110 . 1284+ 103 . 128? 

+ 107. 1282+ 101 . 128! +121 . 128° 

该 数 太 大 ， 无 法 在 大 多 数 计算 机 中 用 普通 算术 函数 表示 。 更 进一步 说 ， 我 们 还 应 该 能 够 
处 理 更 长 位 数 的 关键 字 。 

我 们 可 以 通过 一 段 一 段 地 转化 关键 字 来 计算 长 关键 字 的 模 散 列国 数值 。 而 且 ， 我 们 可 以 
利用 mod 函 数 的 算术 性 质 并 使 用 霍 纳 (Horner) 算法 〈 见 4.9 节 )。 这 种 算法 是 基于 关键 字 的 另 
一 种 表示 来 求 散 列 值 的 方法 。 例 如 ， 我 们 写 出 如 下 的 表达 式 : 

((((((((((97. 128 + 118) . 128 + 101) . 128 + 114) . 128 + 121) . 128 
+ 108) . 128 + 111) . 128 + 110) . 128 + 103) . 128 
+ 107) . 128 + 101) . 128 +121 


也 就 是 说 ,我 们 可 以 按照 从 左 到 右 的 顺序 计算 出 编码 字符 串 的 每 一 个 字符 对 应 的 十 进 制 
数 ， 求 和 后 再 乘 以 128， 然 后 加 下 一 个 字符 的 编码 值 。 该 计算 最 终 产 生 一 个 大 于 我 们 机 器 所 能 
表示 的 整数 ， 但 我 们 对 于 计算 该 数 并 不 感 兴趣 ， 仅 仅 需 要 的 是 它 除 以 M 后 的 余数 ， 当 然 这 个 
余数 应 该 是 相对 较 小 的 。 另 外 ， 我 们 也 不 用 计算 大 的 求 和 值 就 可 以 得 到 结果 ， 因 为 在 运算 的 
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每 一 步 都 去 掉 一 个 M 的 倍数 。 我 们 只 需 在 每 次 加 乘 运算 之 后 保存 模 M 的 值 ， 这 样 得 到 的 结果 是 
好 像 我 们 有 计算 长 整数 ， 然 后 再 作 除法 的 能 力 ( 见 练习 14.10)。 这 一 观察 致使 我 们 可 以 直接 
使 用 算术 方法 计算 长 字符 串 的 模 散 列 函数 。 该 程序 采用 了 一 点 技巧 : 采用 素数 127 代 替 128 做 
基数 。 作 出 这 种 改变 的 原因 将 在 下 一 段 中 讨论 。 

有 多 种 计算 散 列 函数 的 方法 都 与 采用 霍 纳 算法 的 模 散 列 有 相同 的 计算 开销 ( 即 对 关键 字 
中 每 个 字符 进行 一 到 两 次 算术 运算 )。 对 于 随机 关键 字 ， 这 几 种 方法 没有 什么 不 同 ， 但 在 实际 
应 用 中 关键 字 一 般 不 是 随机 的 。 要 使 真实 关键 字 出 现 是 随机 的 ， 我 们 需要 考虑 随机 化 算法 进 
行 散 列 。 因 为 我 们 希望 对 于 任意 的 关键 字 ， 散 列 函数 产生 随机 的 表 中 地 址 。 随 机 化 不 难 设计 ， 
因为 并 不 要 求 严 格 按 照 模 散 列 的 定义 。 我 们 只 是 希望 在 产生 小 于 M 的 一 个 整数 的 计算 中 ， 能 
够 涉及 关键 字 的 所 有 位 。 程 序 14.1 说 明了 这 样 一 种 方法 : 采用 素数 作为 基数 ， 而 不 是 采用 与 
字符 串 的 ASCII 表 示 对 应 的 整数 定义 中 要 求 的 2 的 短 作 为 基数 。 图 14-5 解 释 了 这 种 改变 如 何如 
免 了 典型 字符 串 关键 字 分 布 不 佳 的 问题 。 理 论 上 说 ， 由 程序 14.1 产 生 的 散 列 值 对 表 长 为 127 的 
倍数 的 表 性 能 不 佳 〈 但 实际 应 用 中 这 种 影响 极 小 ) 。 我 们 可 以 通过 随机 选择 乘 数 来 产生 一 个 随 
机 算法 。 另 一 种 更 高 效 的 方法 是 在 计算 中 使 用 随机 系数 ， 并 且 对 关键 字 中 每 位 数 采 用 不 同 的 
随机 值 。 这 种 算法 称 为 通用 散 列 算法 。 


出 加 hal 
bbb dll 
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图 14-5 用 于 字符 串 的 散 列 函 数 


注 ; 使 用 程序 14.1 且 分 别 对 于 M= 96，a = 128( 上 图 )，M= 97，a = 128( 中 图 )，M= 96，a = 127( 下 图 )， 该 图 显示 
了 对 于 一 组 英语 单词 ( 取 自 Melville 的 《Moby Dick》 一 书 中 的 前 1000 个 不 同 的 单词 ) 散 列 所 得 离散 值 。 在 
第 一 个 例子 中 ， 字 母 的 不 均匀 使 用 以 及 表 大 小 与 乘 数 有 公 因 子 32 的 组 合 ， 导 致 了 结果 分 布 不 均匀。 其 他 两 
种 情况 是 随机 出 现 的 ， 因 为 表 大 小 与 乘 数 互 为 素数 。 


程序 14.1 字符 串 关 键 字 的 散 列 函数 
这 个 用 于 字符 串 关键 字 的 散 列 函数 的 实现 涉及 对 关键 字 中 的 每 个 字符 进行 一 次 乘法 和 一 
次 加 法 。 如 果 我 们 用 128 代 替 常 数 127， 那 么 使 用 霍 纳 算法 ， 当 对 应 关键 字 的 7- 位 ASCII 表 示 的 
数 被 表 的 大 小 整除 时 ， 程 序 会 简单 地 计算 出 余数 。 如 果 表 的 大 小 为 2 的 宕 ， 或 为 2 的 倍数 ， 基 
为 127 的 素数 就 可 避免 异常 情况 。 


int hash(char *v, int M) 
{inth= 0,a= 127; 


for (; *V != ’\0’; v++) 
h = (ath + *v) % M; 
return h; 


} 
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理论 上 说 ,一 个 理想 的 通用 散 列 函数 使 得 表 中 两 个 不 同 关 键 字 产 生 冲 突 的 机 率 为 表 大 小 M 
的 倒数 ， 即 WM。 我 们 可 以 证 明 ， 采 用 一 个 不 同 随机 值 ， 而 非 固定 值 的 序列 作为 程序 14.1 中 的 
系数 ， 可 使 模 散 列 函数 成 为 一 种 通用 散 列 函数 。 我们 可 以 通过 维持 -一 个 具有 不 同 随机 值 的 数组 ， 
其 中 每 个 数组 元 素 对 应 一 个 关键 字 的 字符 位 置 ， 来 实现 这 一 思想 。 程 序 14.2 说 明了 在 实际 中 即 
使 号 “个 简单 的 函数 也 可 以 做 得 很 好 ， 因而 我 们 可 以 使 用 一 个 单 的 擅 随 机 序列 来 表示 系数 。 


程序 14:2 用 于 字符 串 关 键 字 的 通用 散 列 函数 
这 个 程序 进行 的 计算 与 程序 14.1 相 同 。 但 使 用 擅 随 机 系数 代替 了 固定 基数 来 近似 两 个 给 定 
的 不 等 关键 字 以 概率 1/M 发 生 冲 突 的 思想 。 我 们 不 使 用 预先 计算 出 的 一 组 随机 数 作为 系数 ， 而 
是 产生 这 些 系数 ， 是 因为 这 种 方法 有 更 简单 的 接口 。 
int hashU(char *v, int M) 
{ int h, a = 31415, b = 27183; 
for (h = 0; *v 1= \0’; vi++, a = ayb % (M-1)) 
h= (axh + *v) % Mi 
return Phi 


} 


总 之 ， 把 散 列 函数 用 于 抽象 符号 表 的 实现 ， 第 一 步 要 扩展 抽象 类 型 接口 ， 使 其 包含 一 个 
把 关键 字 映 射 到 小 于 M 的 非 负 整 数 的 hash 操 作 ，M 为 表 长 。 直 接 实现 ， 

#define hash(v, M) (((v-s)/(t-s))* M) 

对 于 介 于 * 和 ! 之 间 的 浮 点 数 执行 上 述 操作 。 对 于 整数 关键 字 ， 可 以 使 用 

#define hash(v, M) (v % M). 

如 果 M 不 是 素数 ， 可 以 用 下 面 的 散 列国 数 返回 值 : 

#define hash(v, M) {((int) (.616161 * (float) v) % M) 

或 采用 类 似 计算 : 

#define hash(v, M) (16161 * (unsigned) v) % M) 
足以 把 关键 字 散 列 开 。 所 有 这 些 散 列 国 数 ， 包 括 应 用 于 字符 串 关键 字 的 程序 14.1， 都 是 多 年 
来 程序 员 们 普遍 采用 的 古老 而 经 典 的 算法 。 程 序 14.2 的 通用 算法 由 于 仅 用 很 小 的 额外 开销 就 
提供 了 随机 的 散 列 结果 ， 故 对 字符 串 关 键 字 的 散 列 有 明显 改进 。 我 们 还 可 以 类 比 得 到 对 整数 
关键 字 的 相似 算法 ( 见 练习 14.1)。 

在 给 定 的 应 用 中 ， 通 用 散 列 比 简单 散 列 算法 慢 得 多 ， 因 为 关键 字 的 每 个 字符 都 要 做 两 次 
算术 运算 ， 对 于 长 关键 字 而 言 是 相当 耗 时 的 。 为 了 改善 这 一 缺陷 ， 我 们 可 以 将 关键 字 分 成 较 
大 的 段 来 处 理 。 实 际 上 ， 我 们 可 以 像 在 基本 模 散 列 中 那样 把 分 段 扩 大 至 不 超出 机 器 字 的 限度 。 
正如 我 们 前 面 详 细 讨 论 的 ， 这 类 操作 难于 实现 ， 而 且 在 某 些 强 数据 类 型 的 高 级 语言 中 容易 导 
致 循环 漏洞 。 但 在 C 语 言 中 ， 采 用 适当 的 数据 类 型 转换 ， 则 可 以 在 代价 不 高 或 无 需 额 外 的 工作 
地 实现 这 类 操作 。 在 很 多 情况 下 ， 这 些 因素 要 认真 著 虑 ， 因 为 散 列 国 数 的 计算 很 可 能 在 内 循 
环 中 ， 因 此 提高 散 列 的 运算 速度 也 就 提高 了 整个 运算 的 速度 。 

除了 介绍 这 些 算法 的 好 处 之 外 ， 在 实现 这 些 算法 的 时 候 也 要 仔细 。 因 为 ， 第 一 ， 我 们 在 
进行 数据 类 型 转换 和 用 算术 国 数 作用 于 关键 字 的 不 同 机 器 表示 的 时 候 ， 要 十 分 小 心 避免 程序 
出 错 。 特 别 是 当 一 个 程序 由 旧 机 器 移植 到 不 同 字 长 的 新 机 器 上 的 时 候 ， 上 述 操 作 是 典型 的 错 
误 源 。 第 二 ， 散 列 函 数 很 有 可 能 包含 在 程序 的 内 存 循环 中 ， 因 此 它 的 运算 时 间 基 本 上 决定 了 
程序 的 运算 时 间 。 在 这 种 情况 下 ， 确 信 散 列国 数 降 低 了 机 器 代码 的 效率 是 很 重要 。 这 些 操作 
也 是 明显 导致 代码 效率 低 的 原因 。 例 如 ， 在 一 台 较 慢 的 机 器 上 或 软件 上 ， 简 单 模 散 列 与 先 乘 
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系数 0.61616 的 模 散 列 对 浮 点 操作 数 的 运算 ， 运 行 时 间 的 差异 是 惊人 的 。 对 多 数 机 器 而 言 ， 最 
快 的 算法 是 使 W 为 2 的 害 ， 且 使 用 下 面 的 散 列 函数 

#define hash(v, M) (v & (M-1)) 

该 函数 只 使 用 关键 字 的 最 低位 ， 但 是 逐 位 与 运算 比 整 数 除 法 快 很 多 ， 从 而 抵消 了 关键 字 
分 布 不 佳 所 带 来 的 负面 影响 。 

在 实现 散 列 时 ， 散 列 函数 总 是 返回 同一 值 是 一 个 较为 典型 的 错误 。 其 产生 原因 可 能 是 一 
次 数据 类 型 转换 疫 有 正确 完成 。 这 种 错误 称 为 执行 错误 ， 因 为 使 用 这 种 散 列 函 数 的 程序 可 以 
正确 执行 ， 但 会 非常 慢 (因为 它 设 计 成 只 对 分 布 较 好 的 关键 字 值 有 效 )。 这 类 函数 很 容易 用 
一 行程 序 来 实现 ， 因 此 我 们 应 该 对 任何 特殊 符号 表 实 现 中 过 到 的 关键 字 类 型 检验 一 下 其 执行 
情况 。 

我 们 可 以 用 x 统计 量 来 检验 散 列 函 数 产 生 随 机 值 的 假设 ( 见 练 习 14.5)， 但 或 许 这 个 要 求 
过 于 苛刻 。 事 实 上， 只 要 一 个 散 列 函数 对 某 个 输入 值 每 次 的 输出 结果 相同 ， 也 就 相当 于 入 统 
计量 等 于 0， 就 可 以 断定 没有 产生 随机 值 。 我 们 仍然 要 考虑 大 量 的 太 统 计量 的 情况 。 在 实际 应 
用 中 ， 采 用 一 组 分 布 范围 广 且 没有 数据 处 于 支配 地 位 的 测试 数据 就 足够 了 〈 见 练习 14.15 ) 。 
处 于 这 种 情况 ， 一 个 较 好 的 基于 通用 散 列 算法 的 符号 表 实 现 有 时 需要 检查 散 列 值 是 否 是 均匀 
离散 开 的 。 客 户 也 需要 告知 是 发 生 过 小 概率 事件 还 是 散 列 函数 中 存在 程序 错误 。 在 实际 的 随 
机 算法 中 加 入 这 类 检查 是 明智 的 。 
练习 
>14.1 采用 第 10 章 的 digit 抽 象 ， 将 一 个 机 器 字 看 作 一 个 字 节 序列 ， 对 用 机 器 字 中 的 位 表示 的 
关键 字 实 现 一 个 随机 散 列 函数 。 
14.2 在 你 的 编程 环境 中 把 一 个 4- 字 节 的 关键 字 转 换 成 一 个 32- 位 的 整数 ， 测 试 是 否 存 在 执行 
时 间 上 的 开销 。 
014.3 ”基于 一 次 装 入 4- 字 节 的 思想 ， 开 发 一 个 字符 串 关 键 字 的 散 列 函数 ， 然 后 对 每 32- 位 进行 
算术 操作 。 然 后 将 这 个 函数 所 需 时 间 与 程序 14.1 针 对 4- 字 节 、8- 字 节 、16- 字 节 和 32- 字 节 的 关 
键 字 的 运行 时 间 进 行 比较 。 . 
14.4 ”编写 一 个 寻找 a 和 MM 值 的 程序 ， 使 M 尽 可 能 小 。 而 且 对 于 图 14-2 中 的 关键 字 用 散 列 函数 
a*X % NM 产生 不 同 的 值 〈 即 不 发 生 冲 罕 )。 这 个 函数 是 完美 散 列 函数 的 一 个 例子 。 
o14.5 对 N 个 关键 字 和 表 大 小 为 M 的 散 列表 ， 编 写 一 个 程序 ， 计 算 入 统计 量 ， 该 统计 量 由 以 下 
方程 定义 : 
» M NA 
-人 
其 中 /是 散 列 值 为 的 关键 字 的 个 数 。 如 果 散 列 值 是 随机 的 ， 对 于 N > cM， 这 个 统计 量 应 该 以 
概率 1 一 1/c 等 于 M+ WA 。 
14.6 ”使 用 你 在 练习 14.5 中 得 到 的 程序 ， 对 于 小 于 10“ 的 随机 正 整数 关键 字 ， 对 散 列 国 数 
618033 * x % 10000 进 行 评估 。 
14.7 ”在 你 的 系统 中 的 某 个 大 文件 ， 如 一 个 字典 ， 取 出 不 同 的 字符 串 作 为 关键 字 ， 并 用 你 在 
练习 14.5 中 的 程序 评估 程序 14.1 中 的 散 列 函 数 。 
。14.8 ”假设 采用 1 位 整数 作为 关键 字 ， 对 于 素数 M 的 模 散 列 函 数 ， 证 明 每 个 关键 字 位 具有 如 下 
性 质 ， 存在 两 个 只 在 那 位 上 相 异 的 关键 字 ， 散 列 得 到 不 同 的 散 列 值 。 
14.9 ”考虑 实现 整数 关键 字 的 模 散 列 函 数 (a*x) % M， 其 中 a 是 任意 固定 素数 。 试 问 采用 非 素 
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数 M 能 取得 好 的 散 列 效果 吗 ? 
14.10 ”假设 a、b、x 和 M 是 非 负 整 数 ， 试 证 明 
(((ax) mod M)}+b)mod M= (ax+b)modM 


>14.11 ”如果 你 使 用 一 本 书 作 为 文本 文件 ， 诸 如 练习 14.7， 你 不 可 能 得 到 一 个 好 的 ?统计 量 。 
证 明 这 个 断言 是 正确 的 。 

14.12 对 于 所 有 大 小 在 100 和 200 之 间 的 散 列表 ， 使 用 1000 个 小 于 105 的 随机 正 整 数 作为 关键 
字 ， 用 练习 14.5 中 的 程序 评价 散 列 函 数 97*x %M。 

14.13 ”对 于 所 有 大 小 在 100 和 200 之 间 的 散 列表 ， 使 用 100 和 1000 之 间 的 整数 作为 关键 字 ， 用 
练习 14.5 中 的 程序 评价 散 列 函数 97*x ‰。 

14.14 ”对 于 所 有 大 小 在 100 和 200 之 间 的 散 列表 ， 使 用 1000 个 小 于 10* 的 随机 正 整 数 作 为 关键 
字 ， 用 练习 14.5 中 的 程序 评价 散 列 函数 100*x %M。 

14.15 ”做 练习 14.12 和 练习 14.14， 但 使 用 更 简单 的 方 靶 ， 避 免 散 列 函数 对 任何 值 产 生 次 数 多 
于 3N/M 次 。 


14.2 链 地 址 法 


我 们 在 14.1 节 中 讨论 的 散 列 函数 将 关键 字 转 化 为 散 列 表 地 址 。 散 列 算法 的 第 二 步 就 是 解决 
当 两 个 关键 字 散 列 到 同一 地 址 时 如 何 处 理 的 问题 。 最 简单 的 方法 是 对 每 个 散 列 地 址 建立 一 个 
链表 ， 将 散 列 到 同一 地 址 的 不 同 关 键 字 存 入 相应 的 链表 中 。 这 需要 用 到 程序 14.3 中 给 出 的 基 
本 链表 搜索 算法 ( 见 第 12 章 )。 不 同 的 是 在 这 里 不 是 建立 一 个 表 ， 而 是 建立 M 个 表 。 


程序 14.3 采用 链 地 址 法 的 散 列 
这 个 符号 表 实 现 是 在 程序 12.5 中 基于 链表 的 符号 表 的 基础 上 ， 用 这 里 给 出 的 国 数 替换 掉 
STinit、STsearch、STinsert 和 STdelete 得 到 的 ， 且 用 这 里 的 数组 链表 heads 替 换 掉 链表 表 
头 head。 我 们 使 用 和 程序 12.5 中 相同 的 递归 表 搜 索 和 删除 过 程 。 但 用 heads 中 的 头 链接 来 保持 
M 个 链表 ,使 用 散 列 函数 来 选择 这 些 表 。 用 STinit 国 数 来 设置 4N， 使 得 每 个 表 中 大 约 有 5 个 元 素 。 
于 是 ， 其 他 操作 只 需要 几 次 探测 。 
static link *heads, Zz; 
static int N, M; 
void STinit(int max) 
{ int i; 
N= 0; M= max/5; 
heads = malloc(M*+sizeof (link)); 
z = NEW(NULLitem, NULL); 
for (i = 0; i < M; i++) heads[il] = z; 
} 
Item STsearch(Key v) 
{ return searchR(heads[hash(v, M)], v); } 
void STinsert(Item item) 
{ int i = hash(key(item), M); 
heads[i] = NEW(item, heads [i]); N++; } 
void STdelete(Item item) 
{ int i = hash(key(item), M); 
heads[i] = deleteR(heads [i], item); } 


传统 上 这 种 方法 称 为 链 地 址 法 ， 因 为 发 生 冲 突 的 元 素 由 各 自 的 链表 链接 在 一 起 ， 共 有 M 
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个 链表 。 图 14-6 显 示 了 一 个 链 地 址 法 的 例子 。 由 于 采用 基本 的 顺序 搜索 ， 我 们 可 以 使 冲突 元 
素 在 各 自 的 链表 中 有 序 或 无 序 存储 。 正 如 在 
12.3 节 中 讨论 的 那样 ， 对 链 地 址 法 也 可 采用 这 
种 基本 的 方法 ， 但 这 样 节省 的 时 间 并 不 明显 
(因为 链表 较 短 )， 却 造成 空间 开销 更 显著 
(因为 链表 数目 多 )。 

在 单 链表 中 ， 我 们 可 以 采用 一 个 头 节 点 使 
得 有 序 表 的 插入 操作 的 代码 更 简洁 ， 但 我 们 不 
会 对 相互 独立 的 M 个 地 址 链表 使 用 M 个 头 节 图 14-6 采用 链 地 址 法 的 散 列 
点 。 事实 上 ， 我 们 可 以 用 每 个 链表 的 第 一 个 i 
节点 组 成 散 列 表 ， 从 而 删除 掉 散 列表 到 链 地 ”人 娃 地 址 由 所 关键 ASERCHIN XM bi 
址 的 M 个 链接 ( 见 练习 14.20)。 到 初始 为 空 的 散 列表 (无 序 表 ) 中 所 得 的 结果 。A 

对 于 搜索 失败 ， 我 们 可 以 认为 该 散 列 函数 插入 表 0 中 ， 接 着 S 插 入 到 表 2 中 ， 然 后 EE 插入 到 表 0 
有 效 地 散 列 了 关键 字 的 值 ， 使 得 M 个 表 地 址 中 。。 信守 本 人 全 本 全 下 为 直 莒 ?全 大 R 相 人 
每 一 个 都 被 等 概率 地 搜索 到 。12.3 节 研究 的 性 : 

能 特征 对 每 个 链表 均 适用 。 

性 质 14.1 和 链 地 址 法 使 用 MM 个 链表 的 额外 空间 ,平均 来 说 ， 将 顺序 搜索 的 比较 次 数 降低 
到 1/M，, 

链表 的 平均 长 度 是 NM。 如 在 第 12 章 介绍 的 ， 期 望 搜索 成 功 所 需 比 较 次 数 只 是 表 长 的 一 
半 。 不 成 功 的 搜索 ， 对 于 无 序 链表 将 从 头 至 尾 比较 整个 链表 ， 而 有 序 表 只 需 比 较 一 半 长 度 。 

国 

通常 ， 我 们 在 链 地 址 法 中 采用 无 序 链表 ， 因 为 它 既 易 于 实现 又 高 效 : 插入 操作 所 需 时 间 
为 常量 ， 搜 索 操作 所 需 时 间 与 N/M 成 正比 。 如 果 预 计 可 能 产生 大 量 数目 搜索 失败 的 情况 ， 我 
们 可 以 采用 有 序 链表 来 使 搜索 速度 加 快 一 倍 ， 但 代价 是 插入 操作 减 惕 。 

上 述 性 质 14.1 是 一 个 平凡 结果 ， 因 为 无 论 元 素 以 何 种 方式 分 配 到 地 址 链表 中 ， 平 均 链表 长 
均 为 NIM。 例 如 ,假设 全 部 元 素 都 落 在 第 一 个 地 址 链 中 ， 则 平均 链表 长 为 (NV + 0 +0+…+ 0)/M 
= N/M。 散 列 在 实际 中 有 用 的 真正 原因 在 于 每 个 地 址 链 以 极 大 的 概率 包含 N/M 个 元 素 。 

性 质 14.2 ”在 一 个 采用 链 地 址 法 的 散 列表 中 ， 有 MM 个 地 址 链 和 NN 个 关键 字 ， 则 每 个 地 址 链 
中 关键 字 的 数目 是 N/M 的 一 个 小 的 因子 的 发 生 概率 接近 1。 

对 于 熟悉 基本 概率 知识 的 读者 ， 我 们 简单 地 分 析 一 下 这 一 经 典 的 结论 。 通 过 一 个 简单 的 
论证 ， 一 个 地 址 链 含 有 K 个 元 素 的 概率 为 : 

四 辣 人 六 - 
KK 八 MH) M) 

我 们 在 入 个 元 素 中 选择 Kk 个 : 这 k 个 元 素 散 列 到 给 定 表 中 的 概率 为 1/M， 其 余 N 一 k 个 元 素 未 

散 列 到 给 定 地 址 链 中 的 概率 为 1 一 (1/M)， 由 a = N/M， 我 们 可 以 重 写 上 式 为 
全 人 全 
kJN\N)\ NWN) 


根据 经 典 的 泊 松 (Poisson) 近似 公式 ， 上 式 小 于 
Cokerc 
k! 
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根据 这 个 结果 ， 可 得 一 个 地 址 链 含 有 多 于 ta 个 元 素 的 概率 小 于 


就 实际 参数 变化 范围 而 言 ， 这 个 概率 是 相当 小 的 。 例 如 ， 如 果 平 均 地 址 链 长 度 为 20， 则 散 列 
到 某 一 地 址 链 的 元 素 个 数 大 于 40 的 概率 小 于 (20e/2)"e 2 = 0.0000016。 图 

上 述 分 析 是 一 个 经 典 的 “占有 问题 ”的 例子 ， 即 将 N 个 球 随机 投 到 M 个 缸 里 ， 并 分 析 球 在 
不 同 饶 里 的 分 配 情况 。 对 这 些 问题 的 经 典 数学 分 析 告 诉 我 们 许多 跟 研 究 散 列 算法 相关 的 结论 
看 一 个 例子 ， 由 泊 松 近似 公式 得 知 空 链 的 个 数 为 ce“。 一 个 更 为 有 趣 的 结论 是 在 第 一 次 冲突 发 
生前 已 经 插入 元 素 的 平均 个 数 为 VrM /12 ~1.25YM 。 这 个 结论 就 是 经 典 的 “生日 问题 ”的 解答 。 
类 似 的 分 析 告 诉 我 们 ， 取 M = 365， 找 出 两 个 同日 出 生 的 人 ， 那 么 第 一 次 找到 这 样 两 个 人 之 前 
我 们 平均 要 找 24 人 。 另 一 个 经 典 结论 告诉 我 们 在 每 个 地 址 链 中 都 至 少 含 有 一 个 元 素 之 前 , 平 
均 需 有 MH 个 元 素 已 插入 到 表 中 。 这 个 结论 是 经 典 的 “期 票 收藏 问题 ”的 解答 。 再 看 一 个 例 
子 ， 取 M = 1280， 在 收藏 到 联赛 32 支 球 队 每 队 40 名 球员 的 全 部 球星 卡 之 前 ， 我 们 要 收集 9898 
张 球星 卡 〈 期 票 ) 。 

这 些 研 究 结果 体现 了 前 面 所 分 析 的 散 列 的 特征 。 实 际 上 ， 如 果 散 列 函 数 产生 近似 随机 的 
散 列 值 ， 我 们 便 可 以 放心 地 使 用 链 地 址 法 〈 见 第 四 部 分 参考 文献 ) 。 

在 链 地 址 法 的 实现 中 ， 我 们 既 要 取 M 尽 量 小 以 避免 空地 址 链 浪费 大 量 连续 的 内 存 空间 ， 
又 要 让 M 足 够 大 以 使 顺序 搜索 效率 最 高 。 混 合法 (如 ， 使 用 二 又 树 代 替 链 接 表 ) 的 使 用 可 能 
会 得 不 偿 失 。 根 据 经 验 ， 我 们 应 该 选择 M 大 约 为 链表 中 关键 字数 目的 1/15 或 者 1/110， 这 样 每 个 
地 址 链 所 包含 元 素数 目的 期 望 值 为 5 个 或 10 个 。 链 地 址 法 的 一 个 好 处 是 M 的 选择 并 非 起 决定 性 
作用 ， 如 果 更 多 的 关键 字 不 期 而 至 ， 搜 索 仅仅 比 提前 选择 的 相对 稍 大 的 链表 情况 多 耗费 一 小 
段 时 间 。 如 果 更 少 的 关键 字 出 现在 链表 中 ， 那 么 我 们 将 获得 更 快速 的 搜索 ， 但 同时 可 能 会 浪 
费 少量 空间 。 当 空间 不 是 关键 性 资源 的 时 候 ， 不 妨 选 择 足够 大 的 M 以 使 搜索 时 间 为 常量 ， 当 

空间 至 关 重 要 的 时 候 ， 仍 可 以 在 不 超过 我 们 所 能 承受 的 范围 选择 M， 并 使 性 能 得 到 与 M 成 正比 
的 提高 。 

上 一 段 的 内 容 是 对 搜索 时 间 的 考虑 。 在 实际 应 用 中 ， 由 于 两 方面 的 原因 ， 通 常 采用 无 序 
的 地 址 链 。 第 一 ， 正 如 我 们 已 经 提 到 的 ， 插 入 操作 非常 快 ， 计算 散 列 函数 ， 为 节点 分 配 内 存 ， 
把 节点 链接 到 相应 的 地 址 链 的 头 部 。 在 很 多 应 用 中 ， 并 不 需要 分 配 内 存 (因为 插入 到 符号 表 
的 元 素 可 能 是 已 经 含有 可 用 链接 字段 的 记录 ) ， 因 而 我 们 可 能 只 需 3 到 4 个 机 器 指令 就 可 以 完成 
插入 操作 。 在 程序 14.3 中 ， 采 用 无 序 地 址 链表 的 第 二 个 好 处 是 每 个 链表 均 像 堆栈 那样 工作 ， 
因此 我 们 可 以 轻易 地 删除 最 近 插 和 人 的 元 素 ， 因 为 这 种 元 素 在 每 个 地 址 链 的 开始 位 置 ( 见 练习 
14.21)。 当 我 们 实现 一 个 有 贬 套 作用 域 的 符号 表 时 ， 比 如 在 一 个 编译 器 中 ， 这 种 操作 就 显得 
格外 重要 。 

”在 前 面 集 中 讨论 符号 表 的 实现 中 ， 我 们 实际 上 无 意 中 给 了 客户 程序 一 个 处 理 重复 关键 字 
的 选择 。 一 个 如 程序 12.10 的 客户 程序 可 以 在 插入 之 前 ， 通 过 搜索 来 检查 是 否 存在 重复 关键 字 。 
另外 一 个 客户 程序 可 以 不 搜索 链表 中 是 否 有 重复 元 素 从 而 获得 快速 的 插入 操作 。 . 

一 般 地 ， 当 应 用 程序 需要 排序 与 选择 等 符号 表 操 作 时 ， 散 列 并 不 十 分 适用 。 散 列 常 用 在 
如 下 的 典型 情况 中 : 我 们 需要 对 一 个 符号 表 进行 大 量 的 搜索 、 插 入 和 删除 操作 ， 并 在 最 后 按 
关键 字 的 顺序 一 次 打印 输出 。 编译 器 的 符号 表 可 作为 这 种 情形 的 一 个 例子 。 另 一 个 例子 是 删 
除 重复 关键 字 的 程序 ， 如 程序 12.10。 若 在 无 序 链 地 址 法 的 实现 中 处 理 这 种 情况 ， 我 们 就 必须 
采用 第 6 章 至 第 10 章 描述 的 某 种 排序 方法 。 对 有 序 链表 的 实现 ， 我 们 可 以 采用 表 归 并 排序 ， 在 
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与 N lg M 成 正比 的 时 间 内 来 完成 排序 ( 见 练习 14.23)。 

练习 

>14.16 ”使 用 Q) 无 序 链 地 址 法 ，(ii) 有 序 链 地 址 法 ， 把 N 个 关键 字 插 入 到 初始 为 空 的 表 中 ， 需 要 
多 长 时 间 ? 

>14.17 给 出 使 用 无 序 链 地 址 法 ， 按 照 给 出 的 顺序 ， 将 带 有 关键 字 E A S Y Q U TIO N 的 元 素 
插入 到 初始 为 空 的 大 小 为 M = 5 的 表 后 ， 散 列表 中 的 内 容 。 使 用 散 列 国 数 11K mod M 把 字母 表 
中 的 第 k 个 字母 转换 成 表 的 索引 。 

>14.18 采用 有 序 链 地 址 法 ， 解 答 练习 14.17。 你 的 答案 依赖 元 素 的 插入 顺序 吗 ? 

ce14.19 使 用 链 地 址 法 ， 编 写 一 个 把 N 个 随机 整数 插入 到 大 小 为 N100 的 表 中 的 程序 ， 然 后 求 出 
最 短 和 最 长 表 的 长 度 ， 其 中 N = 103，10，105 和 105。 

14.20 ”修改 程序 14.3， 删 去 程序 14.3 中 的 链 头 ， 把 符号 表 表 示 为 STnode 的 数组 (每 个 链表 的 
入 口 就 是 它 的 第 一 个 节点 )。 

14.21 修改 程序 14.3， 在 每 个 元 素 中 添加 一 个 整数 域 ， 用 于 存放 元 素 插入 时 表 中 的 元 素数 目 。 
然后 实现 一 个 函数 ， 删 除 这 个 域 中 大 于 给 定 整数 N 的 所 有 元 素 。 

14.22 修改 程序 14.3 中 的 STsearch 实 现 ， 使 它 能 够 像 STsort 那 样 ， 访 问 关键 字 等 于 给 定 关 键 
字 的 所 有 元 素 。 

14.23 ”使 用 有 序 链 地 址 法 (固定 表 大 小 为 97) 实现 符号 表 ， 使 其 支持 带 有 客户 句柄 的 一 级 符 
号 表 ADT ( 见 练习 12.4 和 练习 12.5) 的 initialize、count、search、insert、delete、join、select 
和 sort 操 作 。 


14.3 线性 探测 法 


如 果 我 们 能 估计 将 要 填 人 散 列 表 的 元 素数 且 ， 并 且 有 足够 的 内 存 空间 可 以 容纳 带 有 空闲 
空间 的 所 有 关键 字 ， 那 么 在 散 列 表 中 采用 链 地 址 法 是 不 值得 的 。 对 表 长 M 大 于 元 素数 目的 情 
况 ， 人 们 设计 了 几 种 方法 ， 依 靠 空 的 存储 空间 来 解决 冲突 问题 ， 这 类 方法 称 为 开放 地 址 法 。 
最 简单 的 开放 地 址 法 是 线性 探测 法 : 当 冲 突 发 生 时 〈 即 我 们 准备 把 元 素 插入 的 位 置 已 经 
被 另 一 个 不 同 的 元 素 所 占据 ) ， 我 们 检查 表 中 的 下 一 个 位 置 。 按 惯例 将 这 种 检查 确定 给 定 的 
表 位 置 上 是 否 存在 一 个 与 搜索 关键 字 不 同 的 元 素 ) 称 为 探测 。 线 性 探测 法 的 特点 是 每 次 探测 
有 三 种 可 能 的 输出 结果 : 如果 表 位 置 上 含有 与 搜索 关键 字 匹 配 的 元 素 ， 那 么 搜索 命中 ;如 果 
表 位 置 上 为 空 ， 那 么 搜索 失败 ， 如 果 表 位 置 上 的 元 素 与 搜索 关键 字 不 匹配 ， 则 继续 探测 表 的 
更 高 索引 ， 直 到 出 现 前 两 种 结果 中 的 一 种 (如果 搜索 到 末尾 则 要 回 到 表 头 继续 搜索 )。 如 果 在 
搜索 失败 后 要 插入 一 个 含有 搜索 关键 字 的 元 素 ， 我 们 将 其 放 入 使 搜索 结束 的 空位 置 上 。 程 序 
14.4 就 是 使 用 线性 探测 法 的 符号 表 ADT 的 一 种 实现 。 采 用 线性 探测 法 为 一 组 样本 关键 字 构 造 
散 列 表 的 过 程 如 图 14-7 所 示 。 


”程序 14.4 :线性 探测 
这 个 符号 表 的 实现 将 元 素 保存 在 大 小 为 元 素数 目 两 售 的 散 列表 中 。 散 列表 初始 化 为 
NULLitem。 散 列表 存放 元 素 自 身 。 如 果 元 素 很 大 ， 可 以 修改 元 素 的 类 型 ， 以 存放 指向 元 素 的 
链接 。 
为 了 插入 一 个 新 的 元 素 ， 我 们 散 列 到 表 中 的 一 个 位 置 ， 然 后 向 右 扫 描 ， 找 到 一 个 空 的 位 
置 。 为 了 搜索 一 个 给 定 关键 字 的 元 素 ， 我们 首先 移 到 关键 字 散 列 的 位 置 ， 并 进行 扫描 寻找 匹 
配 。 当 命中 空位 置 时 就 停止 搜索 。 
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STinit 函 数 对 M 的 设置 ， 满 足 期 望 散 列表 处 于 半 满 状态 。 因 而 如 果 散 列 函数 产生 近似 随机 
的 值 ， 那 么 其 他 操作 只 需要 几 次 探测 就 可 以 完成 。 
#include <stdlib.h> 
#include "Item.h" 
#define null(A) (key(st[A]) == key (NULLitem)) 
static int N, M; 
static Item *st; 
void STinit (int max) 
{ int i; 
N= 0; M = 2*max; 
st = malloc(M*sizeof (Item)); 
for (i = 0; i < Mi i++) st[i] = NULLitenm; 
} 
int STcount() { return N; } 
void STinsert (Item item) 
{ Key v = key(item) ; 
int i = hash(v, M); 
while (lnvl1(i)) i = (i+1) % Mi 
st[i] = item; N++; 
} 
Item STsearch(Key v) 
{ int i = hash(v, M); 
while (lnull(i)) 
if eq(v, key(st[i])) return st[i]; 
else i = (i+1) % M; 
return NULLitem; 


} 
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图 14-7 用 线性 探测 进行 散 列 
注 ; 这 个 图 显示 了 使 用 开放 地 址 法 ， 把 关键 字 A SERCHIN GXMP 插 入 到 大 小 为 13， 初 始 为 定 的 散 列 表 中 
的 过 程 。 使 用 图 中 给 出 的 散 列 值 和 线性 探测 解决 冲突 。 普 先 ，A 插 入 位 置 y， 接 着 $ 播 入 位 置 3， 然 后 已 插入 
位 置 9，R 在 位 置 9 处 发 生 冲 突 后 ， 插 入 位 置 10， 以 此 类 推 。 探 测 到 表 的 右 端 后 ， 序 列 继续 探测 左 炉 。 例 如 ， 
最 后 插入 的 关键 字 P 散 列 到 位 置 8， 然 后 在 位 置 8 至 12 发 生 冲 突 ， 在 位 置 0 至 5 发 生 冲 突 后 ， 散 列 在 位 置 5 处 结 
束 。 表 中 所 有 未 被 探测 的 位 置 用 阴影 标 出 。 


与 链 地 址 法 一 样 ， 开 放 定 址 法 的 性 能 依赖 于 一 个 比例 c = MAM， 但 两 种 方法 中 的 意思 是 
不 同 的 。 对 链 地 址 法 来 说 ，a 是 每 个 地 址 链 元 素 的 平均 个 数 ， 而 且 通 常 大 于 1。 而 对 开放 定 址 
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法 来 说 ，a 表 示 表 中 位 置 被 占据 的 百分比 ， 它 一 定 是 小 于 1 的 。 因 此 , 我 们 通常 把 a 称 为 装填 
因子 。 : 
对 稀疏 表 (a 较 小 ) ， 我 们 预期 大 多 数 搜索 只 需要 几 次 探测 就 能 找到 表 的 空位 。 而 对 于 一 
个 接近 满 的 表 (a 接近 1)， 一 次 搜索 将 需要 相当 多 次 的 探测 ， 而 且 当 表 完 全 填 满 时 ， 探 测 将 变 
成 死 循 环 。 典 型 的 做 法 是 在 线性 探测 中 ， 为 了 避免 过 长 的 搜索 时 间 ， 我 们 不 允许 表达 到 接近 
满 的 状态 。 也 就 是 说 ， 额 外 空间 与 其 用 来 构造 地 址 链 ， 不 如 用 来 缩短 探测 序列 。 采 用 线性 探 
测 法 的 散 列表 长 度 大 于 采用 链 地 址 法 的 散 列表 长 度 。 因 此 ， 必 须 使 4 > N。 但 由 于 未 使 用 链表 ， 
致使 总 的 存储 空间 会 有 所 减少 。 在 14.5 节 我 们 将 详细 比较 两 者 空间 的 使 用 情况 。 现 在 我 们 来 
分 析 线 性 探测 法 的 运行 时 间 ， 表 示 为 关于 a 的 函数 。 
在 线性 探测 中 ， 多 个 元 素 聚 合 在 一 段 连续 空 间 中 的 现象 称 为 “采集 ”。 线 性 探测 法 的 平均 
时 间 开 销 依赖 于 元 素 插入 时 的 聚集 方式 。 考 虑 对 半 满 表 (M = 2N) 线性 探测 的 两 种 极端 情况 : 
最 佳 情 况 是 偶数 地 址 的 表 位 置 是 空 的 ， 奇 数 地 址 的 表 位 置 已 有 元 素 。 最 坏 情 况 是 表 的 后 半 段 
填 有 元 素 而 前 半 段 是 空 的 。 两 种 情况 下 聚集 的 平均 长 度 均 为 W2N = 1/2， 但 两 者 对 搜索 失败 的 
平均 探测 次 数 是 不 同 的 。 前 者 为 1 加 
(0+1+0+1+… )/(2N)= 1/2 
后 者 为 1 加 
(N+ (N—1)+ (N—2) +… )/(2N) = N/4 
(我 们 认为 所 有 搜索 至 少 进行 一 次 探测 )。 
推广 这 个 结论 ， 我 们 发 现 搜索 失败 所 需 平 均 次 数 与 聚集 长 度 的 平方 成 正比 。 每 次 从 链表 
中 的 一 个 位 置 开始 搜索 ， 共 进行 M 次 失败 的 搜索 ， 将 每 次 搜索 的 探测 次 数 相 加 再 除 以 总 数 MM， 
就 计算 出 平均 探测 次 数 。 每 次 搜索 失败 至 少 进行 一 次 探测 ， 因 此 我 们 在 第 一 次 探测 后 统计 探 
测 次 数 。 如 果 聚 集 长 度 为 + ， 则 表达 式 
(t+ (ft—1)++2+ IN/M = tt + 1)/(2M) 
表示 长 度 为 的 诊 集 对 最 终结 果 的 贡献 。 若 聚集 长 度 总 和 是 N， 则 将 表 中 所 有 聚集 对 应 的 
探测 数目 相 加 ， 可 得 一 次 搜索 失败 平均 时 间 开 销 为 1+M(2M) 加 所 有 聚集 长 度 的 平方 和 再 除 以 
2M。 给 定 一 个 表 ， 我 们 能 很 快 地 计算 该 链表 失败 搜索 的 平均 开销 ( 见 练习 14.28) ， 但 是 在 线 
性 探测 算法 中 ， 聚 集 是 一 个 复杂 的 难以 分 析 的 动态 过 程 。 
性 质 14.3 ”为 采用 线性 探测 法 解决 散 列 冲突 时 ， 在 链表 长 为 M 且 链表 元 素 个 数 为 N = aM 
的 散 列 表 中 ， 搜 索 命 中 和 搜索 失败 所 需 平均 探测 次 数 分 别 为 
1 1 1 1 
3+ 和 a(t ny 
尽管 结果 的 形式 相当 简单 ， 但 对 线性 探测 法 的 精确 分 析 却 是 一 个 极 具 挑 战 性 的 工作 。 
Knuth 在 1962 年 完成 的 工作 是 算法 分 析 发 展 史上 的 一 个 里 程 碑 ( 见 第 四 部 分 参考 文献 )。 国 
a 越 接近 于 1， 上 面 的 估计 越 不 准确 ， 但 由 于 我 们 通常 不 会 对 接近 满 的 表 采 用 线性 探测 法 ， 
所 以 根本 不 用 考虑 a 接 近 于 1 的 情况 。 下 面 的 表格 概括 了 在 散 列 表 中 利用 线性 探测 法 ， 搜 索 命 


中 和 搜索 失败 所 对 应 的 探测 次 数 的 期 望 值 。 搜 索 失败 的 开销 往往 大 于 搜索 命中 的 开销 ， 但 在 
尚未 达到 半 满 的 散 列表 中 ， 两 者 的 平均 值 都 仅 需 儿 次 探测 。 
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装填 因子 (a) 1/2 
搜索 命中 1.5 
搜索 失败 2.5 


正如 我 们 在 链 地 址 法 中 所 做 的 那样 ， 我 
们 让 客户 程序 来 选择 表 中 是 否 保 留 重复 的 关 
键 字 。 在 线性 探测 散 列表 中 ， 重 复元 素 不 一 
定 出 现在 连续 的 位 置 上 一 一 其 他 有 相同 散 列 
值 的 元 素 可 以 出 现在 重复 元 素 中 间 。 

由 建 表 过 程 的 性 质 决定 了 关键 字 在 线性 
探测 散 列表 中 是 随机 排列 的 。 抽 象 数 据 表 的 
排序 和 选择 操作 需要 从 0 点 开始 并 采用 第 6 章 
至 第 10 章 里 介绍 的 某 种 方法 。 所 以 在 排序 和 
选择 操作 频繁 时 ， 应 用 线性 探测 并 不 合适 。 

我 们 如 何在 线性 探测 散 列表 中 删除 一 个 
关键 字 呢 ? 仅仅 移 走 它 是 不 行 的 ， 因 为 后 面 
将 插入 的 元 素 会 跳 过 移 走 的 元 素 留 下 的 空 
位 ， 因 此 应 该 将 删除 元 素 所 在 位 置 到 其 右边 
下 一 个 空位 置 之 间 的 全 部 元 素 重 新 散 列 。 图 
14-8 显 示 了 说 明 这 个 过 程 的 一 个 例子 。 程 序 
14.5 则 是 这 种 方法 的 实现 。 在 稀疏 表 中 ， 这 
只 需要 几 次 重新 散 列 。 另 一 种 实现 元 素 删 除 
操作 的 方法 是 把 删除 的 关键 字 替 换 为 一 个 观 
察 哨 ， 这 种 标志 可 作为 搜索 的 占据 符 使 用 ， 
而 且 可 以 被 插入 操作 识别 和 重用 。 


2/3 3/4 9/10 
2.0 3.0 5.5 
5.0 8.5 55.5 
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图 14-8 在 线性 探测 散 列表 中 的 删除 过 各 


: 这 个 图 显示 了 把 XX 从 图 14-7 中 的 表 中 删除 的 过 程 。 第 


二 行 只 显示 了 把 XX 从 表 中 取出 后 的 结果 ， 这 是 不 可 接 
受 的 最 终结 果 ， 因 为 M 和 P 被 X 留 下 的 空位 置 从 散 列 位 
置 隔 开 。 因 此 ， 我 们 使 用 图 上 方 给 出 的 散 列 值 和 线性 
探测 法 解决 冲突 ， 把 M、S、H 和 了 P 按 此 顺序 (它们 是 
同一 聚集 中 X 右 边 的 关键 字 ) 重新 插入 表 中 。M 填 充 
了 XX 留 下 的 空位 ， 接 着 S 和 HH 无 冲突 地 散 列 到 表 中 ， 最 
终 P 散 列 到 位 置 2 结束 。 


a “程序 14.5” 在 线性 探测 散 询 家 由 实现 删除 1 

为 了 删除 具有 给 定 关键 字 的 一 个 元 案 ， 首 先 ， 搜索 这 个 元 素 ， 并 用 NULLitem 代 圭 。 然后 ， 
需要 纠正 某 个 元 素 位 于 现在 未 占据 位 置 右边 的 可 能 性 ， 而 它 初始 时 被 散 列 到 那个 位 置 或 其 左 
边 ， 因 为 空位 将 会 终止 对 这 个 元 素 的 搜索 。 于 是 ， 我 们 把 同一 聚集 中 的 所 有 元 素 作 为 被 删除 
的 元 素 重新 插入 ， 并 插入 到 那个 删除 元 素 的 右边 。 因 为 表格 还 不 到 半 满 ， 平 均 来 说 重新 插入 


的 元 素 的 数目 较 小 。 
void STdelete(Item item) 
{ int j, i = hash(key(item) ，M) ; 
while (!null(i)) 


Item v; 


if eq(key(item) ，key(st[i])) break; 


else i = (i+1) % M; 
if (null(i)) return; 
st[i] = NULLitem; N--; 
for (j = i+1; !nul1(j); j = 
{v= st[j]; 
} 


(j+1) % M, N--) 
st[j] = NULLitem; STinsert(v); } 


一 一 ~ 


练习 

>14.24 ”使 用 线性 探测 法 ， 把 N 个 关键 字 揪 入 到 初始 为 空 的 表 中 ， 最 坏 情 况 下 需要 多 长 时 间 ? 
>14.25 给 出 使 用 线性 探测 法 ， 按 照 给 出 的 顺序 ， 将 带 有 关键 字 E AS Y Q U TIO N 的 元 素 揪 
人 到 初始 为 空 ， 表 大 小 M 为 16 的 表 后 散 列表 中 的 内 容 。 使 用 散 列 函数 11k mod M 把 字母 表 中 的 
第 k 个 字母 转换 成 表 的 索引 ，。 

14.26 对 于 M= 10， 做 练习 14.25。 | . 
214.27 编写 一 个 程序 ， 使 用 线性 探测 法 ， 把 小 于 105 的 10; 个 随机 非 负 整数 插入 到 大 小 为 105 的 
表 中 ， 并 画 出 每 10" 次 连续 揪 入 所 使 用 的 探测 总 数 。 

14.28 编写 一 个 程序 ， 使 用 线性 探测 法 ， 把 N/2 个 随机 整数 插 和 人 到 大 小 为 N 的 表 中 ， 然后 计算 
结果 表 中 一 次 搜索 命中 的 平均 探测 次 数 ， 其 中 N = 10;，104，105 和 105。 

14.29 编写 一 个 程序 ， 使 用 线性 探测 法 ， 把 N/2 个 随机 整数 插入 到 大 小 为 N 的 表 中 ， 然 后 计算 
结果 表 中 一 次 搜索 命中 的 平均 探测 次 数 ， 其 中 NN = 103，104，105 和 105。 不 需要 在 表 尾 搜索 所 
有 关键 字 (保存 构造 表 的 开销 )。 

“14.30 ”使 用 程序 14.4 和 程序 14.5， 进 行 实验 来 确定 搜索 命中 或 搜索 失败 的 平均 探测 次 数 是 否 
会 随 着 插入 和 删除 交替 的 长 随机 序列 而 改变 ， 散 列表 的 大 小 为 2N， 包 含 N 个 关键 字 ，N = 10， 
100 和 1000。 且 对 于 每 个 N， 序 列 中 含有 可 达 和 NV: 个 插 一 删 对 。 


14.4 ”双重 散 列表 


线性 探测 算法 (实事 上 对 任何 散 列 算法 都 成 立 ) 的 一 个 重要 原则 是 当 搜索 某 一 特定 关键 
字 的 时 候 ， 要 保证 对 散 列 到 同一 地 址 的 所 有 关键 字 都 进行 探测 (特别 是 ， 当 该 关键 字 在 表 中 
时 要 探测 到 它 本 身 )。 然 而 ， 在 开放 定 址 散 列 算法 中 ， 特 别 是 当 表 快 要 填 满 的 时 候 ， 其 他 关键 
字 也 要 被 检查 。 在 图 14-7 描 述 的 例子 中 ， 搜 索 N 需 要 探测 C、E、R 和 1， 但 它们 并 没有 相同 的 
散 列 值 。 更 坏 的 是 ， 插 入 一 个 具有 某 一 散 列 值 的 关键 字 会 大 大 增加 其 他 散 列 值 关键 字 的 搜索 
时 间 ， 例 如 在 图 14-7 中 ， 揪 入 M 导 致 位 置 7~12 和 0~1 的 搜索 时 间 增 加 。 由 于 跟 聚 集 形成 过 程 有 
关 ， 这 种 现象 称 为 采集 。 它 使 得 对 接近 满 的 散 列表 的 线性 探测 操作 运行 速度 变 慢 。 

幸运 的 是 ， 有 一 种 简单 的 方法 可 以 消除 聚集 问题 ， 这 就 是 双重 散 列 算法 。 其 基本 策略 与 
线性 探测 算法 一 样 ， 惟 一 不 同 的 是 它 不 是 检查 表 中 冲突 点 后 面 的 每 一 个 位 置 ， 而 是 采用 第 二 
个 散 列 函 数 得 到 一 个 用 于 探测 序列 的 固定 增 量 。 程序 14.6 给 出 了 一 种 实现 方法 。 


程序 14.6， 双 重 散 列 


双重 散 列 除 了 在 每 次 冲突 之 后 ， 使 用 第 一 个 散 列 函数 来 确定 搜索 增 量 之 外 ， 其 他 与 线性 探 
测 相同 。 搜 索 增 量 必定 非 零 ， 表 的 大 小 和 搜索 增 量 应 该 互 素 。 用 于 线性 探测 的 STde1ete 函 数 
( 见 程 序 14.5) 并 不 适合 于 双重 散 列 ， 因 为 任何 关键 字 都 可 能 出 现在 许多 不 同 的 探测 序列 中 。 

void STinsert (Item item) 

{ Key Vv = key (item); 
int i = hash(v, M); 
int k = hashtwo(v, M); 
while (Inull(i)) i = (i+k) % Mi 
st[i] = item; N++; 

了 

Item STsearch(Key v) 

{ int i = hash(v, M); 

int k = hashtwo(v, M); 


务 14 旭 发 列 393 
一 有 14 间 民 列 393 


while (!null(i)) 


if eq(v, key(st[i])) return st[i]; 


else i = (i+k) % M; 
return NULLitem; 


} 


A 


第 二 个 散 列 函数 必须 仔细 选择 ， 否 则 程 
序 可 能 会 根本 不 起 作用 。 首 先 ， 我 们 必须 排 
除 第 二 个 散 列 函 数 产 生 散 列 值 0 的 情况 ， 因 
为 0 散 列 值 将 导致 第 一 次 冲突 时 出 现 死 循环 。 
其 次 ， 第 二 个 散 列 函数 产生 的 散 列 值 必 须 与 
表 长 互 素 ， 和 否则 某 些 探测 序列 将 会 非常 短 
(以 表 长 为 第 二 个 散 列 值 的 两 倍 为 例 )。 一 种 
实现 方法 是 使 M 为 素数 ， 再 选择 第 二 个 散 列 
函数 ， 使 其 返回 值 小 于 M 的 值 。 在 实际 中 ， 
可 采用 下 面 一 个 简单 的 散 列 函数 

#define hashtwo(v) ((v % 97) +1) 

当 表 长 并 不 太 小 时 ， 该 散 列 函数 可 以 满 
足 多 种 散 列 要 求 。 同 样 在 实际 中 ， 这 种 简化 
带 来 的 效率 下 降 并 不 十 分 明显 。 如 果 散 列表 
大 而 且 稀 了 朴 ， 则 表 长 不 必 为 素数 ， 因 为 每 次 


搜索 只 需要 几 次 探测 〈 要 用 这 种 方式 ， 就 要 . 


对 过 长 时 间 的 搜索 进行 检测 以 防止 死 循环 
( 见 练习 14.38) ) 。 

图 14-9 给 出 了 采用 双重 散 列 法 建立 一 个 
较 小 的 散 列 表 的 过 程 。 图 14-10 显 示 出 双重 
散 列 算 法 的 结果 比 线性 探测 具有 更 少 的 聚集 
(因而 聚集 的 长 度 也 更 短 ) 现象 。 














ASERCHINGXMPL 
73998411710120856 
1315553323542 

硬 ， 入 
S A ©®© 
®@ s A E 
RS AOE 
R sQ ACE 
R snH ACE QO 
R SsH ACE 
R snH ACENIG 
ROSH ACENISG 
WRxsH ACEN1G 
MRXSH (OAcENIG 
MRXSHOPACENIG 
0123456789101112 
图 14-9 双重 散 列 


注 : 这 个 图 显示 了 使 用 开放 地 址 法 ， 把 关键 字 ASERCH 


INGXMPL 持 入 到 初始 为 空 的 散 列 表 (无 序 表 ) 中 
所 得 结果 。 使 用 图 上 方 给 出 的 散 列 值 及 双重 散 列 解决 
冲突 。 每 个 关键 字 的 第 一 个 和 第 二 个 散 列 值 出 现在 那 
个 关键 字 的 下 面 两 行 中 。 像 在 图 14-7 世 做 的 那样 ， 被 
探测 过 的 表 位 置 未 用 阴影 。 首 先 ，A 插 入 位 置 7， 接 着 


“ S 插 入 位 置 3， 然 后 EE 插入 位 置 9， 这 和 图 14-7 中 的 一 样 。 


但 民 在 位 置 9 处 发 生 冲 突 后 ， 插 入 到 位 置 1， 它 在 冲突 
之 后 使 用 其 第 二 个 散 列 值 作为 探测 增 量 。 类 似 地 ，P 在 
位 置 8、12、3、7、11 和 2 冲突 时 ,使 用 它 的 第 二 艇 列 
值 4 作为 探测 增 量 ， 最 后 插入 到 位 置 6。 


Wd ed dk a 





注 : 这 些 图 显示 了 当 使 用 线性 探测 (中 图 ) 和 双重 散 列 (下 图 ) 把 记录 插入 到 散 列表 中 ， 记 录 的 分 布 情况 。 上 
图 显示 了 关键 字 的 分 布 情况 。 每 一 行 显 示 了 插入 10 个 记录 的 结果 。 随 着 填充 表 的 进行 ， 记 录 聚 全 在 一 起 ， 
变 成 空 表 位 置 所 隔离 的 序列 。 我 们 不 希望 出 现 长 聚集 的 序列 ， 因 为 搜索 聚集 中 的 一 个 关键 字 的 平均 开销 与 
聚集 长 度 成 正比 。 使 用 线性 探测 ， 聚 集 越 长 ， 聚 集 长 度 就 越 可 能 增加 。 因 而 在 表 被 填充 的 过 程 中 ， 几 个 较 
长 的 聚集 起 着 决定 作用 。 使 用 双重 散 列 ， 这 个 影响 要 小 一 些 ， 聚 集 相对 短 一 些 。 


394 。 务 四 部 分 扫尾 





性 质 14.4 ”采用 双重 散 列 算法 处 理 冲 突 时 ， 对 包含 N = al 个 元 素 且 表 长 为 有 的 散 列 表 ， 
搜索 命中 和 分 别 为 
nfl in 
CQ 以 Ti Ta) 和 
这 两 个 公式 是 Guibas 和 Szemeredi 通 过 深入 的 数学 分 析 得 由 的 结论 ( 见 第 四 部 分 参考 文献 ) 。 
这 个 结论 证 明了 当 我 们 采用 这 样 的 探 铀 序列 一 各 个 关键 字 不 相关 且 每 次 探测 等 概率 地 命中 
每 一 个 表 位 置 ， 那 么 双重 散 列 算法 与 复杂 的 随机 散 列 算法 是 等 效 的 。 上 述 算法 其 实 仅仅 是 双 
重 散 列 的 一 个 近似 。 例 如 ， 我 们 采用 双重 散 列 算法 时 尽量 保证 在 每 个 表 位 置 上 只 比较 一 次 ， 
但 随机 散 列 算法 对 每 个 表 位 置 会 比较 多 次 。 当 然 ， 对 稀疏 表 而 言 ， 两 种 方法 产生 冲突 的 概率 
是 一 样 的 。 由 于 双重 散 列 算法 易于 实现 而 随机 散 列 算法 便于 分 析 ， 所 以 我 们 对 两 种 方法 都 感 
EA 
随机 散 列 算法 中 一 次 搜索 失败 的 平均 开销 由 下 式 给 出 
WAN AN ANN 1 1 


M'\M) \M) YY IN 1a 
上 式 左 边 的 表达 式 代 表 一 次 搜索 失败 所 需 探 测 次 数 大 于 k (Kk = 0，1，2，…) 的 概率 之 和 ( 根 
据 概率 论 知识 ， 它 与 平均 值 是 相等 的 )。 一 次 搜索 总 要 用 到 至 少 ”次 探测 ， 需要 第 二 次 探测 的 
概率 为 NM， 需 要 第 三 次 探测 的 概率 为 (N/M)*， 以 此 类 推 。 我 们 可 以 用 该 公式 近似 计算 和 N 个 关 
键 字 的 散 列 表 中 一 次 搜索 命中 的 平均 开销 


1 1 1 1 
一 | 二 一 一 一 一 十 一 一 一 一 十 下 十 一 一 一 一 一 一 一 
站 | 1-(/M) 1-(Q/M) re on) 
每 个 关键 字 等 概率 地 命中 ， 搜 索 一 个 关键 字 与 插入 一 个 关键 字 的 开销 是 相同 的 ， 将 第 个 
关键 字 播 入 表 中 与 在 广 1 个 关键 字 中 发 生 搜 索 失 败 的 开销 也 是 相同 的 。 因 此 ， 这 个 公式 代表 平 
均 开销 。 我 们 可 以 化 简 该 公式 ， 将 分 子 与 分 母 同 乘 以 M: 





l/r MM M _M .MM 
NA“ NT M2 M-N+l/ 
并 根据 Hy = In M， 可 得 
M ln/_l) 
N (Au ~ Hu-n) a i- ac/ 主 


Guibas 和 Szemeredi 证 明 的 双重 散 列 算 法 与 理想 的 随机 散 列 算法 两 者 性 能 之 间 的 关系 是 一 
种 新 进 关系 ， 与 实际 表 的 大 小 无 关 。 这 个 结论 是 建立 在 散 列 函数 的 返回 值 为 随机 的 假设 之 上 
的 。 在 实际 应 用 中 ， 即 使 我 们 使 用 极 易 计算 的 第 二 散 列 函 数 ， 如 (Vv % 97) +1， 性 质 14.5 中 的 
渐进 公式 仍 可 作为 双重 散 列 算法 性 能 的 精确 估计 。 与 线性 探测 算法 中 的 相关 公式 一 样 ， 当 oa 趋 
近 于 1 时 ， 这 些 公式 接近 无 穷 大 ， 但 它们 接近 无 穷 大 的 速度 非常 慢 。 

图 14-11 清 楚 地 对 比 了 线性 探测 法 和 双重 散 列 法 。 对 稀疏 表 来 说 ， 两 者 性 能 相当 ， 随 着 表 
不 断 填 满 ， 线 性 探测 法 的 性 能 下 降 得 比 双重 散 列 法 快 很 多 。 下 面 的 表格 给 出 了 双重 散 列 法 搜 
索 命中 与 搜索 失败 所 需 探测 数目 的 期 望 值 : 


装填 因子 (oa) 1/2 2/3 3/4 9/10 
搜索 命中 1.4 1.6 1.8 2.6 
搜索 失败 1.5 2.0 3.0 5.5 


搜索 失败 总 是 比 搜索 命中 开销 更 大 。 即 使 是 在 表 为 9/10 满 的 时 候 ， 平 均 情况 下 它们 都 只 需要 
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儿 次 探测 。 





图 14-11 开放 地 址 法 搜索 的 开销 
注 : 这 些 图 表 显 示 了 使 用 线性 探测 法 (上 图 ) 和 双重 散 列 法 (下 图 )， 把 关键 字 插 入 到 初始 为 空 的 表 中 ， 构 建 大 


小 为 1000 的 散 列表 的 开销 。 每 一 条 柱子 表示 20 个 关键 字 的 开销 。 友 色 曲 线 显示 了 理论 分 析 ( 见 性 质 14.4 和 
性 质 14.5) 所 预测 的 开销 。 


让 我 们 从 另 一 角度 看 待 这 个 问题 ， 双 重 散 列 使 我 们 可 以 使 用 比 线性 探测 更 小 的 表 来 得 到 
相同 的 平均 搜索 时 间 。 

性 质 14.5 如果 我 们 使 装填 因子 对 于 线性 探测 算法 和 双重 散 列 算法 分 别 小 于 1 一 /Vt 和 1-/t， 
那么 可 以 保证 所 有 搜索 的 平均 开销 小 于 t 次 探测 。 

设 性 质 14.4 和 性 质 14.5 的 搜索 失败 的 方程 为 +， 即 可 解 得 ac。 圈 

例如 ， 为 了 保证 一 次 搜索 平均 探测 数目 小 于 10 次 ， 如 果 采 用 线性 探测 算法 则 要 求 32% 表 
位 置 为 空 ， 采 用 双重 散 列 算法 只 要 求 保持 10% 表 位 置 为 空 。 如 果 我 们 需要 处 理 105 个 元 素 ， 为 
了 保证 不 成 功 搜索 的 探测 数目 在 10 次 以 内 ， 则 需要 另外 104 个 空间 。 与 之 相 比 ， 链 地 址 法 需要 
超过 105 个 链接 ，BST 法 则 需要 两 倍 之 多 。 
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程序 14.5 实 现 删 除 操作 的 算法 〈 即 把 包含 删除 元 素 的 搜索 路 径 上 的 关键 字 重新 散 列 ) 降低 
了 双重 散 列 算法 的 性 能 ， 因 为 待 删除 的 关键 字 可 能 出 现在 不 同 的 探测 序列 中 ， 会 涉及 整个 表 
中 的 关键 字 。 因 此 ， 我 们 需要 求助 于 12.3 节 最 后 讨论 的 一 种 方法 ， 即 用 一 个 观察 哨 代 替 已 删 
除 元 素 ， 表 示 该 位 置 被 占用 ， 但 不 与 任何 关键 字 相 匹配 〈 见 练习 14.33 ) 。 

与 线性 探测 算法 类 似 ， 对 于 需要 排序 与 选择 操作 全 功能 的 符号 表 ADT， 双 重 散 列 算法 也 
不 合适 。 
练习 
>14.31 给 出 使 用 双重 散 列 ， 按 照 给 出 的 顺序 ， 将 带 有 关键 字 E A S Y QUTION 的 元 素 插 
入 到 初始 为 空 的 ， 表 大 小 M 为 16 的 表 后 ， 散 列表 中 的 内 容 。 使 用 散 列 函数 11k mod MM 作为 初 
次 探测 的 函数 ， 第 二 个 散 列 函 数 (k mod 3) +1 作 为 搜索 增 量 〈 其 中 关键 字 表 示 字 母 表 的 第 K 个 
字符 ) 。 
>14.32 对 于 M =10， 回 答 练习 14.31。 
14.33 ”使 用 观察 哨 元 素 ， 实 现 双重 散 列 的 删除 操作 。 
14.34 ”使 用 双重 散 列 ， 实 现 练习 14.27。 
14.35 ”使 用 双重 散 列 ， 实 现 练习 14.28。 
14.36 ”使 用 双重 散 列 ， 实 现 练习 14.29。 
014.37 用 关键 字 作 为 黎 入 式 随机 数 生成 器 的 种 子 (如 程序 14.2 所 示 ) ， 实 现 近 似 随机 散 列 的 
算法 。 
14.38 ”假设 大 小 为 10' 的 表 半 满 ， 随 机 选择 所 占据 的 位 置 。 计 算 下 标 能 被 100 整 除 的 位 置 被 占 
据 的 概率 。 
>14.39 ”假设 你 的 双重 散 列 代码 中 有 一 个 错误 (bug)， 使 得 一 个 或 两 个 散 列 函 数 总 是 返回 非 0 
的 相同 值 。 描 述 每 一 种 情形 会 发 生 的 情况 ，(i) 当 第 一 个 散 列 函 数 有 错时 ，( 放 ) 当 第 二 个 散 列 函 
数 有 错时 ，(iii) 两 者 都 有 错时 ，。 


14.5 动态 散 列表 


随 着 散 列表 中 关键 字数 目的 增多 ， 搜 索 的 性 能 会 不 断 下 降 。 采 用 链 地 址 法 ， 搜 索 时 间 逐 
步 增 大 一 一 当 表 中 关键 字 的 个 数 加 信和 时， 搜索 时 间 也 加 倍 。 这 种 情况 对 于 采用 线性 探测 或 双 
重 散 列 的 开放 地 址 法 也 是 一 样 。 但 当 表 接 近 满 时 开销 将 迅速 增 大 。 更 坏 的 情况 是 ， 甚 至 我 们 
到 达 不 能 插入 更 多 关键 字 的 状态 。 这 种 情况 与 树 状 搜索 相反 ， 树 状 搜 索 允 许 开销 自然 增长 。 
例如 ， 在 红 黑 树 中 ， 当 树 中 节点 数 加 倍 时 ， 搜 索 开销 仅 有 少量 增长 (一 次 比较 )。 

一 种 不 使 散 列 表 增 长 的 方法 是 ， 当 表 快 要 满 时 使 表 大 小 加 倍 。 加 倍 是 一 种 昂贵 的 操作 ， 
因为 表 中 的 每 个 元 素 必 须 重 新 插入 ， 但 这 种 情况 不 是 一 个 经 常 性 的 操作 。 程 序 14.7 是 针对 线 
性 探测 算法 的 加 倍 操作 的 一 种 实现 。 图 14-12 给 出 了 一 个 示例 。 该 方法 对 双重 散 列 算法 同样 适 
用 。 基 本 思想 也 可 用 于 链 地 址 法 ( 见 练习 14.46) 。 每 当 散 列表 接近 半 满 时 ， 我 们 使 表 长 加 倍 
实现 表 的 扩展 。 第 一 次 扩展 后 ， 散 列表 介 于 1/4 满 与 半 满 两 状态 之 间 ， 因 此 平均 搜索 开销 小 于 
3 次 探测 。 而 且 ， 尽 管 重建 表 的 操作 代价 昂贵 ， 但 是 不 常 发 生 。 它 的 开销 只 占 到 构建 表 的 总 开 
销 的 常量 部 分 。 
| 由 “程序 14.7 动态 散 列 插入 (用 于 线性 探测 ) 

用 于 线性 探测 的 STinsert 的 实现 ( 见 程序 14.4) 可 以 处 理 任意 多 的 关键 字 = ， 每 当 表 处 于 
半 满 时 就 加 倍 表 长 。 加 倍 要 求 我 们 为 新 表 分 配 内 存 空间 ， 重 新 把 关键 字 散 列 到 新 表 中 ， 然 后 
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释放 掉 旧 表 所 占 内 存 。 函 数 init 是 STinit 的 一 个 内 部 版 本 。ADT 初 始 化 STinit 可 以 使 表 长 M 
初始 化 为 4 或 者 任意 大 小 。 这 种 方法 也 可 用 于 双重 散 列 法 或 链 地 址 法 。 
void expand() ; 
void STinsert(Item item) 
{ Key v = key(item); 
int i = hash(v, M); 
while (Inull(i)) i = (i+1) % M; 
st[i] = item; 
if (N++ >= M/2) expand(); 
} 
void expand() 
{ int i; Item *t = st; 
init (M+M) ; 
for (i = 0; i < M/2; i++) 
if (key(t[i]) != key (NULLitem)) 
STinsert (t [i] ); 
free(t) ; 
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图 14-12 动态 散 列表 的 扩张 
注 : 这 个 图 显示 了 把 关键 字 ASERCHIN GXMPL 揪 入 到 使 用 加 倍 扩张 的 动态 散 列表 中 所 得 的 结果 。 使 用 
图 上 方 给 出 的 散 列 值 及 线性 探测 解决 冲突 。 关 键 字 以 下 的 前 4 行 给 出 了 表 长 为 4、8、16 和 32 时 的 散 列 结果 。 
表 长 初始 化 为 4， 到 卫 时 表 长 加 倍 到 8， 到 C 时 表 长 加 倍 到 16， 且 到 G 时 表 长 加 倍 到 32。 每 当 表 长 加 倍 时 ， 所 
有 关键 字 都 重新 散 列 和 插入 。 所 有 插入 都 是 在 稀 了 疏 表 〈 重 插入 时 表 状 态 小 于 1/4 满 ， 否 则 介 于 1/4 满 与 半 满 
之 间 ) 中 进行 ， 因 此 冲突 很 少 。 | 
另 一 种 表达 这 个 概念 的 方法 是 每 个 播 入 操作 的 平均 时 间 开 销 小 于 4 次 探测 。 这 一 断言 并 不 
能 说 是 平均 每 次 插 人 操作 只 需要 小 于 4 次 的 探测 。 事 实 上， 正如 我 们 所 知 的， 那些 引起 表 长 加 
倍 的 插入 操作 需要 大 量 的 探测 。 这 个 结论 也 可 作为 “ 平 挫 分 析 ” 的 一 个 简单 例子 ， 即 我 们 无 
法 保证 这 个 算法 对 每 一 种 操作 均 是 快速 的 ， 但 我 们 可 以 保证 每 个 操作 的 平均 开销 是 较 低 的 。 
尽管 总 开销 较 低 ， 插 入 操作 的 性 能 曲线 仍 是 不 稳定 的 ， 多 数 操作 非常 快 ， 但 极 少 数 几 个 
操作 耗 时 相当 于 前 面 那些 操作 开销 的 总 和 。 在 表 元 素 由 一 千 增 到 一 百 万 的 过 程 中 ， 这 种 情形 
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大 约会 出 现 10 次 。 在 很 多 应 用 中 ， 这 种 现象 是 允许 的 ， 但 如 果 对 性 能 要 求 苛 刻 或 要 保证 绝对 
性 能 的 情况 下 ， 就 不 允许 出 现 这 种 现象 了 。 我 们 不 妨 以 例子 来 说 明 。 或 许 一 个 银行 或 航空 公 
司 愿意 接受 并 承担 让 一 个 客户 在 百 万 次 交易 中 等 待 大 约 10 次 的 后 果 ， 但 他 们 决 不 会 接受 在 线 
资金 交易 或 航班 控制 系统 中 的 长 时 间 等 待 ， 因 为 那 将 带 来 灾难 性 的 后 果 。 

如 果 我 们 支持 删除 的 ADT 操 作 ， 那 么 随 着 表 元 素 的 减少 ， 值 得 对 表 进 行 减 半 〈 见 练习 
14.44) 。 但 有 一 个 附加 条 件 ， 表 长 减 半 与 加 倍 所 对 应 的 元 素 个 数 的 益 值 是 不 同 的 ， 因 为 即使 
很 大 的 表 ， 几 次 连续 的 插入 与 删除 操作 也 会 导致 多 次 复杂 的 表 长 加 倍 和 减 半 的 操作 。 

”” 牲 质 14.6 对 符号 表 执 行 一 系列 搜索 、 插 入 和 删除 操作 所 用 的 时 间 与 成 正比 ， 且 空间 开 
销 在 表 中 关键 字 个 数 的 某 个 常数 因子 范围 内 。 

当 插 入 操作 使 散 列表 到 达 半 满 状 态 时 ， 我 们 采用 线性 探测 算法 使 表 长 加 倍 。 当 删除 操作 
使 表 降 为 1/8 满 时 ， 我 们 将 表 长 减 半 以 使 表 收 缩 。 在 上 述 两 种 情况 下 ， 如 果 重 建 后 的 表 长 为 N， 
则 表 中 含有 N/4 个 元 素 ， 那 么 在 表 长 再 加 倍 (可 通过 N/2 个 元 素 重 新 插入 到 长 度 为 2N 的 表 中 来 
完成 ) 之 前 可 以 插入 N/4 个 元 素 。 同 样 ， 在 表 长 再 减 半 (可 通过 N/8 个 元 素 重 新 插入 到 长 度 为 
N/2 的 表 中 来 完成 ) 之 前 ， 删 除 W8 个 元 素 。 在 两 种 情况 下 ， 需 要 重新 插入 的 元 素 个 数 均 不 超 
过 使 表达 到 重建 点 所 做 的 操作 数目 的 两 倍 ， 因 此 总 开销 是 线性 变化 的 。 而 且 ， 散 列表 总 是 介 
于 1/8 满 与 1/4 满 的 状态 之 间 〈 见 图 14-13) ， 这 也 说 明了 性 质 14.4 中 的 每 个 操作 所 需 的 探测 次 数 
小 于 3。 | 





图 14-13 动态 散 列 


注 : 这 个 图 显示 了 当 向 表 中 进行 插入 元 素 和 删除 表 中 的 元 素 时 ， 利 用 一 次 插入 使 表 半 满 而 对 表 加 倍 ， 一 次 删除 
使 表 长 为 1/8 而 对 表 减 半 的 操作 ， 表 中 的 关键 字数 目 〈 下 图 ) 和 表 长 (上 图 ) 的 变化 情况 。 表 长 初始 化 为 4， 
总 是 2 的 器 (图 中 卡 线 为 2 的 知 ) 。 当 随 着 关键 字数 目 变 化 的 曲线 在 穿越 了 不 同 虚 线 之 后 ， 首 次 穿越 一 条 虚线 
时 ， 表 长 要 发 生 改 变 。 这 个 表 总 是 处 于 1/8 满 和 半 满 两 个 状态 之 间 。 
上 述 方法 适用 于 使 用 模式 无 法 预知 的 通用 库 的 符号 表 实 现 ， 因 为 它 能 合理 地 处 理 各 种 表 
长 的 情况 。 其 基本 缺点 在 于 表 扩 张 和 缩 减 时 重新 散 列 和 内 存 分 配 所 带 来 的 开销 问题 。 当 搜索 
操作 居于 支配 地 位 时 ， 采 用 稀疏 表 将 获得 极 好 的 结果 。 在 第 16 章 ， 我 们 会 考虑 另 一 种 不 需要 
重新 散 列 的 方法 ， 而 且 该 方法 适用 于 大 型 表 的 外 部 搜索 。 
练习 
>14.40 给 出 按照 字母 出 现 的 顺序 ， 将 带 有 关键 字 E A S Y Q U TIO N 的 元 素 插 入 到 初始 为 空 
的 ， 表 大 小 M 为 4 的 表 后 ， 散 列表 中 的 内 容 。 在 表 半 满 时 对 表 进 行 加 倍 扩 张 ， 采 用 线性 探测 解 
决 冲突 。 使 用 散 列 函 数 11k mod M 把 字母 表 的 第 x 个 字符 转换 成 表 中 的 索引 。 
14.41 在 表 处 于 半 满 时 ， 使 用 扩张 三 倍 (不 是 两 倍 ) 表 长 的 方法 会 更 经 济 吗 ? 
14.42 在 表 处 于 1/3 满 时 ， 使 用 扩张 三 倍 (不 是 在 表 半 满 时 扩张 两 倍 ) 表 长 的 方法 会 更 经 济 吗 ? 
14.43 在 表 处 于 3/4 满 (不 是 半 满 ) 时 ， 使 用 扩张 三 倍 表 长 的 方法 会 更 经 济 吗 ? 
14.44 ”给 程序 14.7 添 加 一 个 delete 函 数 ， 就 像 在 程序 14.4 中 删除 一 个 元 素 那 样 。 但 如 果 删 除 操 
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作 使 表 变 成 718 空 ， 则 将 表 收 缩 为 原来 的 一 半 。 

214.45 ”实现 程序 14.7 的 一 个 链 地 址 法 版 本 ， 使 得 每 当 平均 表 长 等 于 10 时 ， 把 表 长 增加 9 倍 。 
14.46 ”采用 带 有 懒 删除 技术 〈 见 练习 14.33) 的 双重 散 列 方法 ， 修 改 程序 14.7 以 及 练习 14.44 
的 实现 。 确 保 你 的 程序 在 是 否 扩张 或 收缩 表 时 考虑 了 哑 元 元 素 的 个 数 以 及 空位 置 数 。 


14.6 综述 


正如 我 们 在 前 面 考虑 各 种 散 列 算法 时 所 讨论 的 ， 针 对 某 一 应 用 选择 最 佳 的 散 列 算法 要 考 
虑 各 种 因素 。 前 面 提 到 的 所 有 散 列 算法 都 可 以 把 符号 表 的 插入 和 搜索 操作 的 开销 减少 到 某 一 
常数 时 间 ， 而 且 这 些 算 法 对 相当 多 的 应 用 都 是 十 分 高 效 的 。 我 们 可 以 将 三 种 主要 算法 〈 线 性 
探测 法 、 双 重 散 列 法 和 链 地 址 法 ) 大 致 总 结 如 下 : 线性 探测 法 是 三 者 中 最 快 的 〈 前 提 是 内 存 
是 够 大 以 保证 表 是 稀疏 的 ) ， 双 重 散 列 法 使 用 内 存 最 为 高 效 〈 但 需要 额外 的 时 间 开 销 来 计算 第 
二 个 散 列 函数 )， 链 地 址 法 最 易于 实现 假设 存在 一 种 好 的 内 存 分 配方 案 )。 表 14-1 给 出 了 关 


于 儿 种 算法 性 能 的 实验 数据 及 其 解释 。 
表 14-1 散 列表 实现 的 实验 研究 

对 于 一 个 32 位 的 随机 整数 序列 ， 这 些 构建 和 搜索 散 列表 的 相对 时 间 证 实 了 ， 对 易于 散 列 的 关键 字 进 行 散 列 是 一 
种 比 树 搜索 快 得 多 的 方法 。 对 于 稀疏 散 列表 ， 双 重 散 列 慢 于 链 地 址 法 和 线性 探测 法 (这 是 由 于 要 计算 第 二 个 散 列 函 
数 ) 。 但 是 在 表 为 满 时 ， 双 重 散 列 法 要 比 线性 探测 法 快 得 多 。 这 是 使 用 少量 额外 内 存 就 能 够 提供 快速 搜索 的 方法 之 一 。 
使 用 带 有 加 倍 扩张 的 线性 探测 法 所 构建 的 动态 散 列表 比 其 他 散 列表 的 构造 开销 要 大 ， 这 是 由 于 内 存 分 配 和 再 散 列 的 
缘故 。 但 这 种 方法 肯定 可 以 导致 最 快 的 搜索 。 当 以 搜索 为 主 且 关键 字 的 数目 不 能 精确 预测 时 ， 动 态 散 列表 是 可 选 的 
方法 。 


y 构造 搜索 失败 

及 H P D Pp* R H P D P* 

1250 1 0 5 3 0 1 1 0 1 0 
2500 3 1 3 4 2 1 1 0 0 0 
5000 6 1 4 4 3 2 1 0 1 0 
12500 14 6 5 5 5 6 1 2 2 1 
25000 34 9 7 8 11 16 5 3 4 3 
50000 74 18 11 12 22 36 15 8 8 8 
100000 182 35 21 23 47 84 45 23 21 15 
150000 54 40 36 138 99 89 53 21 
160000 58 43 44 147 115 133 66 23 
170000 68 55 45 136 121 226 85 25 
180000 65 61 50 152 133 449 125 27 
190000 79 106 59 155 144 2194 261 30 
200000 407 84 159 186 156 33 

其 中 : 


R 红 黑 BST (程序 12.7 和 程序 13.6) 
H 链 地 址 法 《程序 14.3， 且 表 长 20000) 

P 线性 探 诫 (程序 14.4， 且 表 长 200000) 
D 双重 散 列 (程序 14.6， 且 表 长 200000) 
P* “ 带 有 加 倍 扩张 的 线性 探测 (程序 14.7) 


是 选择 线性 探测 算法 还 是 选择 双重 散 裂 算法 主要 取决 于 计算 散 列 函数 的 开销 和 表 的 装填 
因子 。 对 稀疏 表 (a 较 小 ) ， 两 种 方法 都 仅 用 几 次 探测 ， 但 双重 散 裂 算法 遇 到 长 关键 字 时 的 两 
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次 散 列 函数 计算 开销 大 。 另 一 方面 ， 如 图 14-11 所 示 ， 随 着 a 接 近 于 1， 双 重 散 裂 算法 性 能 大 大 
优 于 线性 探测 算法 。 

由 于 需要 精确 计算 内 存 使 用 情况 ， 线 性 探测 算法 和 双重 散 列 算法 与 链 地 址 法 的 比较 更 为 
复杂 。 链 地 址 法 需要 额外 的 空间 存储 链表 ， 开 放 地 址 法 需要 在 表 内 使 用 额外 的 空间 来 终止 探 
测 。 下 面 以 具体 例子 进行 说 明 。 假 设 使 用 链 地 址 法 建立 了 一 个 具有 1 个 地 址 链 的 散 列 表 ， 链 
的 平均 长 度 为 4， 并 设 每 个 表 元 素 和 链 占用 一 个 机 器 字 的 空间 。 由 于 我 们 用 相应 的 链 来 代替 
一 定数 量 的 元 素 ， 故 认为 元 素 与 链 占据 同样 大 空间 的 假设 是 合理 的 。 在 上 述 假设 下 ， 散 列表 
共 使 用 9W 个 机 器 字 的 内 存 空间 (4M 用 于 元 素 ，5M 用 于 地 址 链 ) ， 而 且 平 均 每 次 搜索 需要 2 次 
探测 。 然 而 ， 对 4M 个 元 素 且 表 长 为 9M 的 散 列表 ， 线 性 探测 算法 完成 一 次 搜索 命中 平均 只 需 
(1 + 1/(1 一 4/9))/2 = 1.4 次 探测 ， 即 在 使 用 同样 多 内 存 的 条 件 下 ， 线 性 探测 法 比 链 地 址 法 快 
30% 。 另 一 方面 ， 对 4M 个 元 素 且 表 长 6M 的 散 列表 ， 线 性 探测 算法 完成 一 次 搜索 命中 平均 需 
要 2 次 探测 ， 即 在 同样 时 间 开 销 条 件 下 ， 线 性 探测 法 比 链 地 址 法 节省 33% 的 存储 空间 。 而 且 ， 
我 们 还 可 以 使 用 如 程序 14.7 中 的 动态 散 列 算法 以 确保 ， 随 着 元 素数 目的 增多 ， 表 始终 处 于 稀 
疏 状 态 。 

前 面 的 讨论 说 明 ， 基 于 性 能 考虑 ， 我 们 没有 理由 放弃 开放 地 址 法 而 选择 链 地 址 法 。 但 实 
际 应 用 中 对 固定 表 长 的 情况 我 们 通常 选用 链 地 址 法 ， 理 由 有 很 多 : 易于 实现 (特别 是 删除 操 
作 ) ， 对 符号 表 或 其 他 抽象 数据 类 型 需要 使 用 的 事先 分 配 好 链接 字段 的 元 素 ， 实 现时 只 需 很 
少 的 额外 空间 ， 尽 管 随 着 表 的 填 满 链 地 址 法 的 性 能 会 下 降 ， 但 在 某 种 意义 上 这 种 下 降 是 允许 
的 ， 而 且 由 于 它 仍 比 顺序 搜索 快 ， 故 通常 不 会 影响 应 用 的 效果 。 

针对 某 些 应 用 ， 人 们 提出 了 很 多 种 散 列 算法 ， 我 们 不 能 一 一 详 述 ， 在 这 里 简要 介绍 三 种 
特殊 散 列 算法 以 试图 说 明 其 本 质 。 

一 种 方法 是 在 双重 散 列 算法 的 插入 操作 时 把 元 素来 回 移 动 ， 这 样 使 得 搜索 命中 率 更 高 。 
Brent 研 究 出 一 种 方法 使 得 搜索 命中 的 平均 时 间 开 销 限制 在 一 个 常数 时 间 内 ( 见 第 四 部 分 参考 
文献 ) 。 在 搜索 命中 起 决定 作用 的 应 用 中 ， 这 种 方法 相当 有 用 。 

另 一 种 称 为 有 序 散 列 的 算法 ， 在 线性 探测 中 引入 排序 ， 使 得 搜索 失败 的 开销 接近 于 搜索 成 
功 。 在 使 用 观察 哨 的 线性 探测 中 ， 当 遇 到 一 个 或 大 于 或 与 搜索 关键 字 匹配 的 空位 置 时 ， 我 们 便 
停止 搜索 ， 在 有 序 散 列 算法 中 ， 当 我 们 遇 到 大 于 或 等 于 搜索 关键 字 的 元 素 时 就 停止 搜索 (使 用 
这 种 方法 必须 建立 有 序 表 ) ( 见 第 四 部 分 参考 文献 )。 引 入 排序 所 带 来 的 改进 与 链 地 址 法 中 对 地 
址 链 排序 所 获得 的 效果 是 一 样 的 。 这 种 方法 是 为 搜索 失败 处 于 决定 地 位 的 应 用 所 设计 的 。 

一 个 失败 搜索 速度 快 而 命中 搜索 速度 稍 慢 的 符号 表 可 以 用 来 实现 异常 字典 。 例 如 ， 一 个 
文本 处 理 系统 的 断 字 算法 对 大 多 数 单词 正常 工作 ,但 遇 到 异常 情况 (如 遇 到 单词 “bizarre”) 
时 就 不 能 正常 工作 。 实 际 情况 是 ， 在 一 个 大 型 文档 中 ， 只 有 很 少儿 个 单词 有 可 能 出 现在 异常 
词典 中 ， 即 几乎 所 有 的 搜索 都 应 该 是 失败 的 。 

上 述 例子 仅 是 多 种 散 列 算 法 改进 方法 中 的 几 种 ， 很 多 算法 是 有 趣 的 并 且 有 重要 的 应 用 。 
需要 注意 的 是 ， 除 非 要 求 很 高 或 者 对 性 能 /复杂 度 进行 了 认真 分 析 ， 否 则 不 要 轻易 使 用 高 级 的 
算法 ， 因 为 我 们 所 认真 讨论 过 的 链 地 址 法 、 线 性 探测 法 和 双重 散 列 法 已 经 足够 简单 、 高 效 并 
适用 于 很 多 应 用 。 

前 面 异 常 词典 的 例子 告诉 我 们 ， 针 对 某 一 常用 操作 对 算法 做 少量 修改 就 可 以 提高 其 性 
异常 词典 ， 要 搜索 1 百 万 个 元 素 是 否 在 其 中 。 事 实 上 几乎 所 有 元 素 的 搜索 都 是 失败 的 。 如 果 元 
素 为 奇异 英文 单词 或 32 位 随机 整数 ， 就 会 出 现 这 种 情况 。 一 种 方法 是 把 所 有 词 散 列 成 15 位 的 
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散 列 值 ( 表 长 约 为 2*)。1000 种 异常 值 占 表 的 1/64 并 使 得 绝 大 多 数 搜索 直接 以 失败 结束 ， 即 第 
一 次 探测 就 发 现 空 的 表 位 置 。 但 如 果 表 中 含有 32 位 的 字 ， 我 们 可 以 将 它 转化 成 奇异 表 并 采用 
20 位 的 散 列 值 。 如 果 搜 索 失 败 ， 则 只 需 比较 一 位 就 可 以 ， 而 搜索 命中 则 需要 在 一 个 小 的 表 中 
进行 多 次 探测 。 异 常 占据 表 的 1/1000， 搜 索 失 败 仍 占 绝 大 多 数 ， 而 且 我 们 通过 1 百 万 次 位 比较 
操作 就 可 以 完成 任务 。 该 方法 采用 了 这 样 一 个 基本 思想 : 一 个 散 列 函数 对 每 个 关键 字 产 生 一 
个 标志 一 一 这 一 思想 在 符号 表 之 外 的 应 用 中 极为 有 用 。 

在 符号 表 实现 的 很 多 应 用 中 ， 散 列 比 二 叉 树 ( 见 第 12、13 章 ) 应 用 更 为 广泛 ， 因 为 它 简 
单 并 能 提供 最 佳 的 搜索 时 间 (为 常数 ) ， 而 且 如 果 关 键 字 是 标准 类 型 或 足够 简单 ， 我 们 一 定 可 
以 找到 好 的 散 列 函数 。 二 又 树 优 于 散 列 的 地 方 是 : 它 基 于 简单 的 抽象 接口 (无需 设 计 散 列 函 
数 ) ， 二 又 树 是 动态 的 (不 需 关 于 搜索 次 数 的 更 多 信息 ) ， 二 叉 树 可 以 在 最 坏 情况 下 保证 性 能 
(即使 最 好 的 散 列 算法 也 有 可 能 将 全 部 关键 字 散 列 到 同一 位 置 ) ， 二 又 树 支持 更 多 种 操作 (最 
重要 的 是 排序 与 选择 )。 当 上 述 因素 不 重要 时 散 列 算法 当然 是 理想 的 选择 ， 但 还 有 一 种 例外 : 
如 果 关 键 字 是 长 字符 串 ， 我 们 可 以 构造 一 种 搜索 速度 比 散 列 更 快 的 数据 结构 ， 这 将 在 第 15 章 
进行 介绍 。 
练习 
>14.47 对 于 1 百 万 个 整数 关键 字 ， 计 算 三 种 方法 〈 链 地 址 法 、 线 性 探测 法 和 双重 散 列 法 ) 的 
散 列表 长 ， 要 求 它们 像 BST 平 均 搜索 失败 时 那样 具有 相同 的 关键 字 比 较 次 数 ， 并 以 统计 散 列 
函数 的 计算 次 数 作为 比较 次 数 。 
>14.48 对 于 1 百 万 个 整数 关键 字 ， 计 算 三 种 方法 〈 链 地 址 法 、 线 性 探测 法 和 双重 散 列 法 ) 平 
均 搜 索 失 败 的 比较 次 数 ， 要 求 它们 使 用 总 数 达 3 百 万 字 的 内 存 空间 ( 像 BST 那 样 ) 。 
14.49 实现 正文 中 描述 的 带 有 快速 搜索 失败 的 符号 表 ADT, 第 二 次 比较 时 要 求 使 用 链 地 址 法 。 


第 15 章 基数 搜索 


第 10 章 介绍 了 基数 排序 。 采 用 类 似 方法 我 们 可 以 得 到 一 些 搜索 算法 ， 称 为 基数 搜索 算法 ， 
即 每 一 步 不 是 比较 整个 关键 字 ， 而 是 比较 关键 字 的 一 段 或 一 部 分 。 当 关键 字 易 于 分 段 时 这 些 
方法 很 有 用 ， 而 且 能 高 效 地 完成 多 种 搜索 任务 。 

本 章 我 们 采用 与 第 10 章 相同 的 抽象 模型 ， 按 内 容 不 同 可 将 关键 字 分 为 两 种 ， 一 种 是 字 ， 
即 国定 长 度 的 字 节 序列 ， 另 一 种 是 字符 串 ， 或 简称 串 ， 即 变 长 的 字 节 序列 。 对 字 类 型 的 关键 
字 ， 我 们 用 以 R 为 基 的 数 的 形式 表示 ， 并 按 数 位 进行 各 种 操作 。 我 们 可 以 把 C 语 言 的 字符 串 看 
作 终 止 于 一 个 特殊 符号 的 变 长 数 ， 这 样 无 论 是 定 长 关键 字 还 是 变 长 关键 字 ， 都 可 以 把 算法 基 
于 “提取 关键 字 的 第 ;位 ”这 一 抽象 的 操作 之 上 ， 当 然 要 考虑 到 关键 字 位 数 小 于 ;的 情况 。 

基数 搜索 算法 的 主要 优点 是 : 在 最 坏 情 况 下 仍 能 提供 较 好 的 搜索 性 能 而 无 需 平衡 树 那样 
的 算法 复杂 度 ， 对 变 长 关键 字 易于 实现 ， 某 些 基数 搜索 算法 在 搜索 数据 结构 对 部 分 关键 字 进 
行 排序 ， 从 而 节省 开销 ,与 二 叉 树 和 散 列 算法 相 比 ， 基 数 搜索 可 以 快速 访问 数据 。 与 基数 排 
序 一 样 ， 基 数 搜索 也 存在 一 定 缺 陷 ， 比 如 空间 使 用 效率 低 ， 车 不 能 高 效 地 访问 关键 字 中 的 每 
一 个 位 ， 搜 索性 能 也 会 受到 影响 。 

在 本 章 中 ， 首 先 ， 我 们 介绍 每 次 用 关键 字 的 一 位 来 遍历 二 又 树 的 儿 种 搜索 算法 。 接 着 讨 

一 系列 的 方法 ,而且 每 一 种 方法 都 解决 前 面 一 种 方法 的 某 个 问题 ， 最 终 我 们 将 得 到 一 种 适 
用 于 多 种 搜索 应 用 的 巧妙 算法 。 

然后 ， 我 们 将 概括 R 又 树 。 同 样 会 介绍 一 系列 算法 并 最 终 得 到 一 种 支持 基本 符号 表 及 其 扩 
展 的 灵活 高 效 的 算法 。 

在 基数 搜索 中 ， 我 们 通常 先 比较 关键 字 的 最 高 位 (MSD) 。 很 多 算法 与 基于 最 高 位 的 基数 
排序 算法 的 思路 是 一 致 的 ， 正 如 基于 BST 的 搜索 算法 与 快速 排序 算法 的 思路 是 一 致 的 。 特 别 
是 ， 我 们 还 要 介绍 与 第 10 章 中 线性 时 间 排 序 算法 类 似 的 方法 一 一 基于 同一 思路 的 常数 时 间 搜 
索 算 法 。 

在 本 章 最 后 ， 我 们 会 介绍 采用 基数 搜索 算法 的 大 文本 索引 应 用 。 这 是 一 种 很 自然 的 解决 
方案 ， 而 且 为 第 五 部 分 介绍 高 级 字符 串 处 理 做 了 必要 的 准备 。 


15.1 数字 搜索 树 


最 简单 的 基数 搜索 算法 基于 数字 搜索 树 (DST)。 其 搜索 和 插入 算法 与 二 又 树 只 有 一 点 不 
同 : 树 分 支 不 是 根据 整个 关键 字 的 比较 结果 ， 而 是 根据 关键 字 的 某 些 被 选 位 的 比较 结果 。 在 
第 一 层 使 用 最 重要 的 位 ， 第 二 层 使 用 次 重要 的 位 ， 以 此 类 推 ， 直 到 遇 到 外 部 节点 。 程 序 15.1 
给 出 了 搜索 算法 的 实现 ， 其 对 应 的 插入 算法 也 是 类 似 的 。 由 于 位 函数 操作 可 以 访问 关键 字 的 
每 一 位 ， 故 不 用 “小 于 ”进行 关键 字 比 较 。 事 实 上 ， 这 段 代码 与 程序 12.8 中 二 又 树 搜索 算法 
的 代码 是 一 一 样 的 ， 但 其 性 能 截然 不 同 ， 这 些 将 在 后 面 内 容 中 进行 介绍 。 


”程序 15. 1 二 进 制 数字 搜索 树 ， 。 ， 
为 了 使 用 DST 开 发 符号 表 的 实现 ， 我 们 修改 标准 BST 中 的 search 和 insert 实 现 现 ( 见 程序 12 .7)。 
如 同 这 个 search 实 现 所 示 的 ， 不 是 比较 整个 的 关键 字 ， 而 是 根据 对 关键 字 的 某 位 (最 高 位 ) 的 


0 


测试 来 决定 是 向 左 子 树 搜索 还 是 向 右 子 树 搜索 。 当 向 树 的 下 方 移动 时 ， 递 归 函 数 调用 中 的 第 
三 个 参数 可 以 把 被 测试 位 的 位 置 向 右 移动 。 我 们 使 用 digit 操 作 来 测试 位 ， 如 同 第 10.1 节 所 讨 
论 的 。 这 些 一 样 的 改变 可 用 于 insert 实 现 中 ， 否 则 ， 使 用 程序 12.7 中 的 所 有 代码 。 
Item searchR(link h, Key v, int w) 
{ Key t = key(h->item); 
if (h == Z) return NULLitenm; 
if eq(v, +t) return h->itenm; 
if (digit(v, w) == 0) 
return searchR(h->1, v, w+1); 
else return searchR(h->r, v, w+1):; 
} 
Item STsearch(Key v) 
{ return searchR(head, v, 0); } 


如 第 10 章 所 述 ， 基 数 排序 算法 需要 我 们 注意 相等 的 关键 字 的 情况 ， 在 基数 搜索 中 也 是 一 
样 。 在 本 章 中 ， 我 们 假设 符号 表 中 所 有 关键 字 值 均 不 相同 。 由 于 可 采用 12.1 节 中 的 方法 处 理 
相同 关键 字 的 情况 ， 故 上 述 假设 并 不 失 一 般 性 。 在 基数 搜索 中 集中 精力 研究 不 等 值 关 键 字 是 
非常 重要 的 ， 因 为 关键 字 值 是 我 们 将 要 研究 的 几 种 数据 结构 的 共有 元 素 。 

图 15-1 给 出 了 本 章 使 用 的 一 些 单字 母 关键 字 的 二 进 制 表示 。 图 15-2 给 出 了 一 个 DST 树 插入 
操作 的 例子 。 图 15-3 显 示 了 把 一 个 关键 字 插 入 到 初始 为 空 的 树 中 的 过 程 。 


A O00001 
S 10011 
E O0101 
R 10010 
C 00011 
H O1000 
I O1001 


N 01110 
G O011i1 
X 11000 
M O1101 
P 10000 
L O1100 





图 15-1 单个 字符 关键 字 的 二 进 制 表示 图 15-2 数字 搜索 树 与 插入 操作 


注 : 如 在 第 10 章 所 做 到 的 那样 ， 我 们 使 用 i 的 5 位 二 进 制 ” 注 : 这 个 数字 搜索 树 的 示例 描述 了 一 个 不 成 功 搜索 
表示 来 表示 字符 表 中 的 第 个 字母 ， 如 图 中 给 出 的 一 M=01101 的 过 程 《上 图 )。 在 树 根 向 左 (因为 关键 
组 字母 的 表示 。 在 本 章 中 常用 图 中 的 这 组 例子 。 按 字 的 二 进 制 表示 中 的 第 一 位 为 0) ， 接 着 向 右 ( 因 
照 从 左 到 右 为 第 0 位 至 第 4 位 的 顺序 来 考虑 每 一 位 。 为 第 二 位 为 1) ， 然 后 向 右 、 向 左 ， 在 N 下 面 的 空 左 
链 结 束 这 个 搜索 过 程 。 要 插入 M (下 图 ) ， 我 们 把 
搜索 结束 位 置 的 空 链 用 链接 到 新 节点 的 链接 代替 ， 

如 同 我 们 在 BST 插 入 所 做 的 那样 。 


插入 和 搜索 操作 是 由 关键 字 的 各 个 位 决定 的 ， 但 任意 的 DST 不 具有 BST 的 有 序 性 ， 也 就 是 
说 DST 中 一 个 给 定 节 点 不 一 定 大 于 其 左边 的 节点 或 小 于 其 右边 的 节点 ， 这 种 有 序 性 在 每 个 关键 
字 不 等 的 BST 中 是 一 定 存 在 的 。 然 而 ， 对 一 个 给 定 的 节点 ， 其 左边 的 关键 字 一 定 小 于 其 右边 的 
关键 字 (假设 该 节点 在 第 上 层 ， 那 么 其 前 k 位 是 一 样 的， 但 下 一 位 则 左边 的 关键 字 为 0， 右 边 的 关 
键 字 为 1) ， 而 且 该 节点 的 关键 字 可 能 是 其 子 树 中 所 有 关键 字 的 最 大 值 、 最 小 值 或 其 中 任意 值 。 
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图 15-3 数字 搜索 树 的 构造 
注 : 这 个 图 序列 描述 了 把 关键 字 ASERCHING 播 入 到 初始 为 空 的 数字 搜索 树 中 的 过 程 。 


DST 具 有 以 下 性 质 ， 每 个 关键 字 都 处 于 由 关键 字 的 位 〈 从 左 到 右 ) 所 确定 路 径 上 的 某 个 
地 方 。 这 个 性 质 可 以 保证 程序 15.1 中 的 search 和 insert 实 现 的 正确 性 。 

假设 关键 字 是 固定 字 长 (w 位 ) 的 字 ， 要 使 每 个 关键 字 不 同 ， 要 求 N<2"， 可 设 N 远 远 小 
于 2”( 如 果 不 满足 此 情况 ， 可 采用 12.2 节 中 关键 字 索 引 的 搜索 算法 )。 事 实 上 ， 很 多 实际 搜索 
应 用 是 满足 这 个 要 求 的 。 例 如 ， 对 具有 105 条 记录 且 关 键 字 长 为 32 位 (但 可 能 没有 105 条 那么 多 
记录 ) 的 符号 表 或 任意 多 条 记录 数 的 64 位 关键 字 的 符号 表 ，DST 都 是 适用 的 。DST 同 样 适用 
于 变 长 关键 字 。 对 于 变 长 关键 字 的 情况 我 们 将 在 15.2 节 介绍 ， 并 介绍 一 些 相关 算法 的 变形 。 

如 果 关 键 字 数目 很 大 而 字 长 相对 较 小 ， 则 建立 DST 表 的 最 坏 情 况 比 BST 的 要 好 很 多 。 在 数 ， 
字 搜 索 树 中 ， 对 很 多 应 用 而 言 (例如 关键 字 是 由 随机 的 位 组 成 的 ) ， 最 长 路 径 的 长 度 也 是 相对 
较 短 的 。 特 别 是 ， 最 长 路 径 是 由 最 长 关键 字 的 位 数 决定 的 。 而 且 ， 如 果 关 键 字 是 定 长 的 ， 搜 
索 时 间 也 由 关键 字 的 位 数 决定 ， 如 图 15-4 所 示 。 

性 质 15.1 在 一 个 N 个 随机 关键 字 的 数字 搜索 树 (DST) 中 ， 一 次 搜索 或 插入 操作 ， 平 均 
需要 lg N 次 比较 ， 最 坏 情 况 下 大 约 为 21g8N 次 比较 。 比 较 次 数 不 大 于 关键 字 的 位 数 。 
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图 15-4 最 坏 情况 下 的 数字 搜索 树 
注 : 这 个 图 序列 描述 了 把 关键 字 P = 10000，H = 01000，D = 00100，B = 00010 和 A = 00001 枯 入 到 初始 为 空 的 
数字 搜索 树 中 的 过 程 。 树 的 序列 出 现 了 退化 ， 但 是 路 径 长 度 受 到 关键 字 的 二 进 制 表示 的 长 度 所 限 。 除 了 
00000， 其 他 关键 字 不 会 再 增加 树 的 高 度 。 

下 一 节 我 们 将 介绍 一 个 更 普通 的 问题 。 现 在 先 用 其 中 的 参数 ， 对 随机 关键 字 给 出 最 坏 情 
况 和 平均 情况 的 结果 ， 将 证 明 过 程 留 作 练习 〈 见 练习 15.29) 。 出 于 直觉 ， 我 们 可 以 将 随机 关 
键 字 分 为 以 0 开头 和 以 1 开头 两 部 分 ， 且 两 部 分 各 分 到 某 节点 的 一 侧 。 在 树 上 每 下 移 一 层 ， 需 
要 比较 关键 字 的 一 位 ， 因 此 搜索 所 需 的 比较 次 数 不 会 超过 关键 字 的 位 数 。 对 于 w 位 关键 字 且 
总 数 N 远 远 小 于 2" 的 典型 情况 ， 路 径 长 度 接 近 N， 因 此 比较 次 数 也 远 远 小 于 随机 关键 字 的 位 数 。 

国 

图 15-5 给 出 了 7 位 关键 字 的 较 大 型 的 数字 搜索 树 ， 它 接近 完美 的 平衡 。DST 吸 引 人 之 处 在 
于 ， 对 许多 应 用 (其 至 很 大 的 数据 量 ) 都 能 提供 接近 最 优 的 性 能 ， 且 易于 实现 。 例 如 ， 即 使 
关键 字数 目 达到 数 十 亿 ，32 位 关键 字 的 DST (或 4 个 字母 ， 每 个 字母 用 8 位 二 进 制 表示 ) 也 可 
使 比较 次 数 小 于 32，64 位 关键 字 的 DST (或 8 个 字母 ， 每 个 字母 用 8 位 二 进 制 表 示 ) 可 使 比较 
次 数 小 于 64。 对 于 大 的 NW，DST 可 提供 与 红 黑 树 相当 的 比较 次 数 ， 并 且 不 超过 BST 的 复杂 度 
(BST 只 提供 与 M? 成 正比 的 复杂 度 ) 。 所 以 ， 如 果 关 键 字 的 每 一 位 都 易于 访问 的 话 ， 那 么 数字 
搜索 树 (DST) 是 对 搜索 和 插入 等 符号 表 操 作 使 用 平衡 树 的 一 种 不 错 的 选择 。 


图 15-5 数字 搜索 树 示例 
注 ; 这 棵 由 约 200 个 随机 关键 字 所 构建 的 数字 搜索 树 ， 与 第 15 齐 描述 的 对 应 情况 一 样 ， 具 有 良好 的 平衡 性 。 
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练习 

>15.1 使 用 图 15-1 中 给 出 的 二 进 制 编码 ， 画 出 把 带 有 关键 字 E A S Y Q U TIO N 的 数据 项 按 
照 此 顺序 插入 到 初始 为 空 的 树 中 的 DST。 

15.2 给 出 关键 字 A B C D EF G 的 一 个 插入 序列 。 读 序列 使 这 些 关 键 字 产生 一 棵 完美 平衡 
DST， 同 时 也 是 一 棵 高 效 的 BST。 

15.3 给 出 关键 字 A B CD EF G 的 一 个 插入 序列 。 该 序列 使 这 些 关键 字 产 生 一 棵 完美 平衡 
DST， 且 每 个 节点 有 一 个 关键 字 小 于 其 子 树 所 有 节点 的 关键 字 ， 同 时 也 是 一 棵 高 效 的 BST。 
>15.4 画 出 把 带 有 关键 字 01010011 00000111 00100001 01010001 11101100 00100001 
10010101 01001010 的 数据 项 按照 此 顺序 插入 到 初始 为 空 的 树 中 的 DST。 

15.5 ”试问 能 否 像 在 BST 中 那样 ， 把 带 有 重复 关键 字 的 记录 保存 在 DST 中 ?并 做 出 解释 。 
15.6 对 于 N =103，10*，10 和 10*， 把 N 个 随机 的 32 位 关键 字 插 入 到 初始 为 空 的 树 中 所 构建 的 
DST,， 通过 实验 比较 DST 与 同 关键 字 的 标准 BST 和 红 黑 树 的 高 度 和 内 部 路 径 长 度 。 

o15.7 对 有 不 同 w 位 的 N 个 关键 字 的 DST， 给 出 其 最 坏 情 况 下 内 部 路 径 长 度 的 完整 描述 。 
。15.8 ”实现 基于 DST 的 符号 表 的 delete 操 作 。 

。15.9 ”实现 基于 DST 的 符号 表 的 select 操 作 。 

c15.10 ”描述 如 何 用 线性 时 间 且 无 需 构 建 DST， 来 计算 一 棵 由 给 定 关 键 字形 成 的 DST 的 高 度 。 


15.2 线索 


在 本 节 ， 我 们 介绍 与 DST 类 似 的 、 采 用 关键 字 的 位 比较 来 完成 搜索 的 一 种 搜索 树 。 但 不 
同 之 处 在 于 ， 这 种 树 中 的 关键 字 是 有 序 排列 的 ， 因 此 该 树 支 持 ， 如 BST 中 的 排序 等 符号 表 的 
操作 。 基 基本 思路 是 把 关键 字 只 存储 在 树 的 底 端 ， 即 树 的 叶 节 点 上 。 这 种 数据 结构 有 很 多 有 
用 的 性 质 ， 而 且 成 为 了 很 多 有 影响 的 搜索 算法 的 基础 。 它 是 由 de la Briandais 在 1959 年 首先 发 
现 的 ， 而 且 由 于 对 检索 (retrieval) 操作 非常 有 用 ， 故 在 1960 年 被 Fredkin 命 名 为 线索 (trie)。 
有 趣 的 是 ， 平 常 我 们 不 得 不 读 成 “try-ee” 或 者 干脆 读 “try” 以 区 别 树 “tree"” 。 为 了 命名 的 一 
致 性 ， 应 该 使 用 术语 “二 又 搜索 线索 ”来 命名 线索 ， 但 事实 上 线索 这 一 名 称 已 经 被 广泛 接受 
了 。 在 本 节 介 绍 基 本 的 二 又 搜索 线索 ， 在 15.3 节 介绍 它 的 一 种 重要 的 变形 ， 在 15.4 节 和 15.5 节 
介绍 基本 的 多 又 搜索 线索 和 一 系列 变形 。 

线索 对 于 定 长 与 变 长 关键 字 的 情况 均 适 用 。 为 了 简化 讨论 ， 我 们 假定 任 一 搜索 的 关键 字 
都 不 是 其 他 关键 字 的 前 级， 例如 ， 定 长 且 各 不 相等 的 关键 字 就 满足 此 条 件 。 

在 一 个 线索 中 ， 我 们 把 所 有 关键 字 保 存在 树 的 叶 节 点 上 。 由 5.4 节 可 知 ， 树 的 叶 节 点 是 指 
一 棵 树 中 没有 和 孩子 节点 的 节点 。 树 的 叶 节 点 与 外 部 节点 不 同 。 我 们 把 外 部 节点 看 作 是 空 孩子 
节点 。 在 二 叉 树 中 ， 叶 节点 是 一 个 其 左右 链接 为 空 的 内 部 节点 。 把 所 有 关键 字 保 存在 叶 节点 
中 而 不 是 保存 在 内 部 节点 ， 使 得 我 们 可 以 仿照 在 15.1 节 中 的 DST 那 样 ， 通 过 比较 关键 字 的 位 来 
完成 搜索 。 两 者 基本 的 一 致 性 在 于 : 如 果 当 前 比较 位 为 0， 则 向 下 进入 左 子 树 比 较 ， 如 果 当 前 
比较 位 为 1， 则 向 下 进入 右 子 树 比 较 。 

定义 15.1 线索 是 关键 字 与 树 的 一 个 叶 节 点 关联 的 一 种 二 又 树 ， 递 归 定 义 如 下 : 没有 任何 
关键 字 的 线索 是 一 个 空 链接 ; 单个 关键 字 的 线索 是 一 个 含有 该 关键 字 的 叶 节 点 ; 多 关键 字 的 
线索 起 始 于 一 个 内 部 节点 ， 其 堪 链接 指向 以 0 位 开始 的 关键 字 ， 右 链接 指向 以 1 位 开始 的 关键 
字 ， 然 后 对 关键 字 的 后 续 位 按照 这 个 规则 继续 构造 子 树 ， 直 至 关键 字 最 后 一 位 。 

所 有 关键 字 都 存储 在 树 的 叶 节 点 上 ， 而 且 其 路 径 顺 序 是 由 关键 字 前 导 位 的 排列 模式 决定 
的 。 相 反 ， 每 一 线索 的 叶 节点 包含 的 惟一 关键 字 ， 是 以 由 树 根 到 该 叶 节 点 所 确定 路 径 上 的 位 
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为 起 始 位 。 非 叶 节 点 的 空 链 接 对 应 的 是 不 属于 线索 中 关键 字 的 位 序列 。 因 此 ， 要 在 线索 中 搜 
索 一 个 关键 字 ， 只 要 像 在 DST 中 那样 由 树 根 开 始 ， 根 据 关键 字 的 不 同位 向 下 分 支 ， 但 不 需要 
在 内 部 节点 进行 比较 。 搜 索 过 程 是 这 样 的 ， 从 线索 的 顶端 出 发 ， 先 比较 关键 字 的 最 左边 一 位 ， 
如 果 它 是 0 则 进入 左 子 树 ， 如 果 是 1 则 进入 右 子 树 ， 然 后 将 所 用 关键 字 向 右 移 一 位 ， 继 续 搜索 。 
如 果 搜 索 结 束 于 一 个 空 链接 则 表示 搜索 失败 。 由 于 只 能 有 一 个 叶 节 点 含有 与 搜索 关键 字 相 同 
的 元 素 ， 因 此 如 果 搜 索 结 束 于 一 个 叶 节 点 ， 则 只 需 一 次 关键 字 比 较 就 可 以 完成 搜索 。 程 序 
15.2 实 现 了 上 述 过 程 。 


程序 15.2 线索 搜索 


这 个 函数 使 用 关键 字 的 位 来 控制 线索 中 向 下 过 程 的 分 枝 , 与 程序 15. 1 针对 DST 的 方法 _ 样 
有 三 种 可 能 结果 : 如 有 果 搜 索 到 达 一 个 时 节点 〈 它 有 两 个 空 链接 ) ， 那 么 它 是 线索 中 可 能 包含 带 
有 关键 字 v 的 记录 的 惟一 节点 ， 因 而 我 们 测试 那个 节点 是 否 确实 包含 v (搜索 命中 ) 或 那个 节 
点 包含 的 关键 字 ， 其 最 高 位 匹配 vy (搜索 失败 )。 如 果 搜 索 到 达 一 个 空 链接 ， 那 么 ， 父 节点 的 
其 他 链接 一 定 不 是 空 链接 ， 因 而 ,线索 中 存在 某 个 其 他 关键 字 ， 在 对 应 的 位 上 不 同 于 搜索 关 
键 字 ， 发 生 搜 索 失 败 。 这 个 代码 假设 关键 字 互 不 相同 ， 而 且 (关键 字 可 能 长 度 不 同 ) 没有 一 
个 关键 字 是 另 一 个 关键 字 的 前 级 。 在 非 叶 节 点 中 未 使 用 item 域 。 


Item searchR(link h, Key v, int Ww) 
{ 
if (h == Z) return NULLitem; 
if ((h->1 == 2z) && (h->r == 2z)) 
return eq(v,key(h->item)) ?了 h->item : NULLitem; 
if (digit(v, w) == 0) 
return searchR(h->1, v, w+1); 
else return searchR(h->r, v, w+1); 
+ 
Item STsearch(Key v) 
{ return searchR(head, v, 0); } 


像 通常 一 样 ， 要 在 一 个 线索 中 插入 一 个 关键 字 ， 首 先 要 进行 搜索 。 如 果 搜 索 在 一 个 空 链接 
ek 就 将 该 空 链 接替 换 为 指向 含有 待 插 入 关键 字 的 叶 节 点 的 链接 。 如 果 搜 索 在 一 个 叶 市 

处 结束 ， 我 们 需要 增加 内 部 节点 ， 并 继续 向 下 搜索 ， 直 到 遇 到 两 个 叶 节 点 〈 内 部 节点 的 所 
有 孩子 节 遇 ) 的 关键 字 第 一 个 不 同位 出 现 为 止 。 图 15-6 给 出 了 线索 搜索 和 插入 的 例子 。 图 15-7 
给 出 了 将 关键 字 插 入 到 初始 为 空 的 构造 线索 的 过 程 。 程序 15 3 是 线索 插 人 算法 的 完整 实现 。 


和 15.3 线索 插入 1 
要 向 线索 插入 一 个 新 节点 ， 我 们 像 通常 那样 进行 搜索 ， 然后 区 分 可 能 出 现 搜索 失败 的 两 
种 情况 。 如 果 失 败 不 是 在 叶 节 点 上 ， 那 么 我 们 用 一 个 指向 新 节点 的 新 链接 代替 引起 检测 到 失 
的 空 链 接 。 如 果 失 败 是 在 叶 节 点 上 ， 和 那么 ， 我 们 在 搜索 关键 字 与 找到 的 关键 字 相 一 致 的 每 
个 位 的 位 置 上 ， 使 用 国 数 sp1it 来 构造 一 个 新 的 内 部 节点 ， 并 在 一 个 内 部 节点 最 左 位 出 现 不 同 
关键 字 的 地 方 结束 这 个 过 程 。sp1it 中 的 Switch 语句 把 正在 测试 的 两 位 转换 成 一 个 数 ， 用 来 处 
理 遇 到 的 四 种 情况 。 如 果 两 位 相同 〈 即 00: = 0 或 11, = 3) ， 那 么 继续 分 裂 节点 。 如 果 两 位 不 同 
( 即 01, = 1 或 10, = 2)， 那么 停止 分 裂 节点 。 
void STinit() 
{ head = (z = NEW(NULLitem, 0, 0, 0)); } 
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link split(link p, link q, int Ww) 
{ link t = NEW(NULLitem, z, 2z, 2); 
switch(digit(p->item, w)*2 + digit(q->item, w)) 


{ 
case 0: t->1 = split(p, q, w+1); break; 
case 1: t->1 = Pi t->r = q; break; 
case 2: t->r = pi t->1 = gq; break; 
Case 3: t->r = split(p, dq, w+1i); break; 
} 
return t; 


} 
link insertR(link h, Item item, int T) 
{ Key v = key(item); 
if (h == Z) return NEW(item, z, z, 1); 
if ((h->1 == Z) && (h->r == Z)) 
{ return split (NEW(item, z, 2z, 1), h, w); } 
if (digit(v, w) == 0) 
h->1 = insertR(h->1, item, w+1); 
else h->r = insertR(h->r, item, w+1); 
return hi; 
} 
void STinsert(Item item) 
{ head = insertR(head, item, 0); } 





图 15-6 线索 搜索 和 插入 操作 


注 : 线索 中 的 关键 字 存储 在 叶 节点 (其 两 个 链接 都 为 空 ) 中 。 非 叶 节 点 的 空 链接 对 应 的 位 模式 不 在 线索 的 任何 
关键 字 中 。 

这 标示 例 线索 显示 了 对 关键 字 H=01000 的 一 次 成 功 搜索 (上 图 ) 。 在 根 处 向 左 移动 (因为 该 关键 字 的 二 
进 制 表示 的 第 一 位 为 0) ， 接 着 向 右 移动 〔 因 为 第 二 位 为 1) ， 在 那里 找到 下， 它 是 树 中 以 01 开 始 的 眉 一 关键 
字 。 线 索 中 没有 关键 字 是 以 101 或 11 开 始 ， 这 两 个 位 模式 导致 了 线索 中 非 叶 节点 的 两 个 空 链接 。 

要 向 线索 中 揪 入 一 个 关键 字 〈 下 图 ) ， 需 要 添加 三 个 非 叶 节点 : 一 个 节点 对 应 01， 它 有 一 个 对 应 011 的 
空 链接 ， 一 个 节点 对 应 010， 它 有 一 个 对 应 0101 的 空 链接 ; 还 有 一 个 节点 对 应 0100， 它 的 左边 叶 节点 为 H = 
01001， 右 边 叶 节点 为 1 = 01001。 

我 们 不 用 访问 叶 节 点 的 空 链接 ， 也 不 需 把 元 素 存储 在 非 叶 节点 中 ， 因 而 ,我们 可 以 在 C 实 
现 中 ， 通 过 采用 union 把 节点 定义 为 上 述 的 其 中 一 种 情况 ( 见 练习 15.20) 来 节省 空间 。 此 时 ， 
我 们 仍然 为 了 简便 起 见 ， 采 用 BST、DST 和 其 他 二 又 树 结构 中 的 单 节点 的 定义 方法 。 这 种 方 
法 的 显著 特点 是 内 部 节点 不 含 关键 字 ， 而 叶 节点 的 左右 链接 为 空 。 当 然 ， 这 种 定义 的 简化 导 
致 了 一 定 空间 上 的 浪费 。 在 15.3 节 中 ， 我 们 将 针对 多 节点 类 型 对 算法 作出 改进 ， 并 在 第 16 章 
中 介绍 用 union 实 现 的 搜索 。 
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图 15-7 线索 构造 
注 : 这 个 图 序列 描述 了 把 关键 字 ASERCHIN 插 入 到 初始 为 空 的 线索 中 的 过 程 。 


根据 前 面 的 定义 和 几 个 例子 ， 我 们 可 以 得 出 线索 的 几 个 基本 性 质 。 

性 质 15.2 ”一 个 线索 的 结构 与 其 关键 字 插 入 的 顺序 是 无 关 的 : 对 任 一 无 重复 关键 字 序列 存 
在 一 个 惟一 的 线索 。 

这 是 线索 区 别 于 前 面 介 绍 的 其 他 搜索 树 的 一 个 特性 。 其 他 搜索 树 的 建立 既 依赖 于 所 使 用 
的 关键 字 ， 又 依赖 于 关键 字 的 插 人 顺序 。 | 

一 个 线索 的 左 子 树 的 全 部 关键 字 都 是 以 0 开头 ， 而 右 子 树 的 关键 字 是 以 1 开头 。 线 索 的 这 
个 性 质 与 基数 排序 有 一 定 相似 性 ， 二 叉 树 搜索 与 二 进 制 快 速 排序 ( 见 10.2 节 ) 对 关键 字 的 分 
类 方式 是 完全 一 致 的 。 通 过 比较 图 15-6 的 线索 与 图 10-4 的 快速 排序 〈 注 意 : 所 有 关键 字 都 不 
同 ) 也 可 以 得 出 两 者 的 关系 。 我 们 在 第 12 章 也 介绍 了 两 者 的 相似 性 。 

线索 与 DST 的 不 同 之 处 在 于 其 关键 字 在 树 中 是 有 序 的 ， 因 此 ， 我 们 可 以 直接 实现 符号 表 
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的 排序 和 选择 操作 ( 见 练习 15.17 和 15.18)。 而 且 ， 线 索 与 DST 一 样 都 是 平衡 的 。 

性 质 15.3 ”对 由 N 个 随机 位 组 成 的 随机 关键 字 ， 在 线索 中 进行 一 次 插入 或 搜索 操作 ,平均 
需要 lg N 次 位 比较 。 最 坏 情 况 下 的 位 比较 次 数 不 大 于 搜索 关键 字 的 位 数 。 

在 分 析 线 索 时 ， 要 注意 我 们 所 做 的 假设 ， 即 所 有 关键 字 均 不 同 ， 且 没有 一 个 关键 字 是 其 
他 关键 字 的 前 级 。 满 足 这 些 假设 的 一 个 简单 模型 是 ， 从 无 穷 的 随机 位 构成 的 序列 中 取出 建立 
线索 所 需 的 位 。 

下 面 我 们 通过 概率 分 析 得 出 平均 情况 下 的 结果 。 在 一 个 随机 线索 中 ，N 个 关键 字 与 一 个 搜 
索 关键 字 的 前 位 至 少 有 一 位 不 同 的 概率 为 : 


| 


用 1 减 上 式 即 得 线索 中 存在 一 个 关键 字 与 搜索 关键 字 前 :位 匹配 的 概率 : 


1 N 
上 (二 
从 另 一 个 角度 解释 ， 上 式 就 是 搜索 所 需 比 较 位 数 大 于 1 位 的 概率 。 根 据 基 本 概率 知识 ， 对 
于 之 0， 随 机 变量 大 于 的 概率 的 和 是 随机 变量 的 平均 值 ， 所 以 平均 搜索 开销 为 : 


1 ANw 

2 (| 

根据 近似 式 (1 一 1/x)* ~e ， 可 得 搜索 开销 近似 等 于 : 
El1-e"®) 

上 面 的 求 和 式 中 ，2' 充 分 小 于 N 的 lg N 个 项 非常 接近 1， 所 有 2 充分 大 于 N 的 项 非常 接近 0， 
另外 少数 2 = N 的 项 介 于 0 和 1 之 间 。 因 此 ， 求 和 结果 大 约 为 lg N。 对 上 式 的 精确 分 析 与 估计 需 
要 较 高 的 数学 理论 ( 见 第 四 部 分 参考 文献 )。 我 们 分 析 的 前 提 是 假设 w 足 够 小 ， 使 得 我 们 在 搜 
索 时 不 会 出 现 搜索 关键 字 的 所 有 位 都 用 完 的 情况 ， 但 实际 的 w 值 会 使 开销 减 小 。 

在 最 坏 情 况 下 ， 我 们 可 能 会 遇 到 两 个 相当 多 位 出 现 相同 的 关键 字 ， 当 然 这 种 情况 的 概率 
非常 小 。 性 质 15.3 中 提 到 的 最 坏 情 况 与 这 个 概率 呈 指 数 关系 〈 见 练习 15.28) ， 即 更 小 。 加 

我 们 也 可 以 将 分 析 BST 的 一 种 方法 ( 见 性 质 12.6) 进行 推广 来 分 析 线 索 的 性 质 ， 即 以 0 开 
头 的 关键 字 为 个 ， 另外 以 1 开头 的 关键 字 为 -个 的 梳 素 为 [Xj2" 由 此 我 们 可 以 得 出 外 部 路 
径 长 度 的 递 推 公式 : 


Cw = w+ 二 (je 十 CN ， ) 内 


Kk 
这 个 递 推 公式 与 7.2 节 中 快速 排序 的 递 
推 公式 是 类 似 的 ， 但 推导 难度 更 大 。 而 且 这 
个 结果 是 我 们 在 性 质 15.3 中 介绍 的 平均 搜索 
开销 的 表达 式 的 N 倍 〈 见 练习 15.26) 。 仔 细 
研究 这 个 递 推 公式 可 以 加 深 我 们 对 线索 比 图 15-8 二 又 线索 最 坏 情 况 
BST 更 平衡 这 一 性 质 的 理解 ， 即 从 中 间 将 关 注 : 这 个 序列 描述 了 把 关键 字 H = 01000 和 I = 01001 揪 入 


键 字 分 类 的 概率 更 大 。 因 此 ， 这 个 递 推 公式 。 “到 科 妈 为 空 的 二 又 线 过 后 的 结果 。 避 像 在 DS 中 堵 样 
与 归并 排序 和 快速 排序 的 递 推 公式 两 者 (前 
者 大 约 等 于 N lg N， 后 者 大 约 等 于 2N lg N) 


( 见 图 15-4), .路 径 长 度 受 到 关键 字 的 二 进 制 表示 的 长 
度 的 限制 。 然 而 ， 就 像 这 个 例子 所 描述 的 那样 ， 即 使 
线索 中 只 有 两 个 关键 字 ， 路 径 长 度 也 可 能 比较 长 。 
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相 比 ， 跟 归并 排序 的 递 推 公式 更 相像。 

我 们 已 经 考察 了 线索 区 别 于 其 他 搜索 树 的 一 些 性 质 ， 但 还 有 一 个 不 好 的 性 质 是 当 关键 字 
多 数位 相同 时 需要 进行 单 分 支 遍 历 。 如 图 15-8 所 示 ， 无 论 线索 中 有 几 个 关键 字 ， 只 有 最 后 一 
位 不 同 的 关键 字 希 要 与 关键 字 长 相等 的 路 径 长 度 ， 此 时 内 部 节点 的 数目 其 至 比 关键 字 的 数目 
还 多 。 

性 质 15.4 一 个 由 N 个 w 位 随机 关键 字 构 成 的 线索 平均 含有 Mn 2 = 1.44N 个 节点 。 

通过 整理 性 质 15.3 的 公式 ， 我 们 可 以 得 到 N 个 关键 字 的 一 个 线索 中 平均 节点 数目 的 公式 如 


下 〈 见 练习 15.27) ， 
于 人 (人 


因为 这 一 公式 中 很 多 项 的 值 都 不 像 性 质 15.3 中 的 公式 中 那样 趋向 0 或 1， 所 以 其 数学 推导 
比 前 者 更 为 复杂 ( 见 第 四 部 分 参考 文献 )。 国 

我 们 可 以 通过 实际 经 验 来 检验 上 述 结果 。 图 15-9 给 出 了 一 个 大 的 线索 ， 它 的 节点 数目 比 
相同 关键 字 构 造 的 BST 和 DST 多 44%， 但 能 够 更 平衡 并 且 达 到 近似 最 佳 的 搜索 开销 。 我 们 起 初 
担心 额外 的 节点 会 增加 搜索 操作 的 平均 开销 ， 但 事实 正 相 反 。 例 如 ， 即 使 我 们 把 平衡 线索 的 
节点 数目 加 倍 ， 搜 索 操 作 增 加 的 开销 也 仅仅 为 一 次 比较 操作 。 


图 15-9 线索 示例 
注 : 这 个 由 桥 入 大 约 200 个 随机 关键 字 所 构造 的 线索 ， 平 衡 性 很 好 ， 但 由 于 单 路 分 支 的 影响 ， 多 于 44 多 的 节点 是 
不 需要 的 〈 叶 节点 中 的 空 链 接 未 显示 出 ) 。 

考虑 到 程序 15.2 和 程序 15.3 实 现 起 来 比较 简便 ， 我 们 假设 关键 字 是 定 长 且 各 不 相同 的 ， 因 
此 程序 每 次 可 以 比较 一 位 而 且 不 会 用 尽 关 键 字 的 全 部 位 。 同 样 ， 为 了 简便 ， 在 性 质 15.2 和 性 
质 15.3 中 ， 我 们 假设 每 个 关键 字 的 位 数 是 任意 的 ， 因 此 各 关键 字 相 同 的 概率 〈 呈 指数 减 小 ) 
很 小 。 这 些 假 设 直接 适用 于 变 长 字符 串 关 键 字 的 情况 ， 当 然 仍 有 细节 值得 注意 。 

如 果 对 变 长 关键 字 的 情况 使 用 前 面 的 程序 ， 除 了 每 个 关键 字 都 不 同 这 一 限制 ， 还 要 增加 
一 个 条 件 ， 即 每 个 关键 字 都 不 能 成 为 任 一 关键 字 的 前 级 。 很 多 应 用 会 自动 满足 这 个 条 件 ， 我 
们 将 在 15.5 节 介绍 这 部 分 内 容 。 另 外 ， 因 为 我 们 对 每 个 前 级 的 处 理 都 与 一 定 的 内 部 节点 相 联 
系 ， 所 以 我 们 可 在 内 部 节点 中 存 入 一 一 定 信息 以 处 理 某 些 关键 字 成 为 其 他 关键 字 前 组 的 情 次 
( 见 练习 15.30)。 

对 于 由 足够 多 的 随机 位 组 成 的 长 关键 字 ， 性 质 15.2 和 性 质 15.3 描 述 的 平均 情况 仍然 成 立 。 
在 最 坏 情 况 下 ， 线 索 树 的 高 度 仍 取决 于 最 长 关键 字 的 位 数 。 如 果 关 键 字 非常 长 或 者 比较 相似 ， 
则 搜索 的 开销 就 会 过 大 ， 比 如 ， 这 种 情况 会 出 现在 字符 编码 的 数据 中 。 在 接 下 来 的 两 节 中 ， 
我 们 将 介绍 对 长 关键 字 的 应 用 降低 开销 的 方法 。 一 种 方法 是 通过 把 单 树枝 压缩 成 单 链接 以 缩 
短路 径 长 度 ， 我 们 将 在 15.3 节 介绍 如 何 简 洁 高 效 实现 该 方法 。 另 一 种 方法 是 使 每 个 节点 包含 
多 于 2 个 链接 以 达到 缩短 路 径 长 度 的 目的 ， 这 将 在 15.4 节 介绍 。 
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练习 

>15.11 ” 画 出 把 带 有 关键 字 E A SY Q UT10O N 的 数据 项 按照 此 顺序 插入 到 初始 为 空 的 线索 中 
的 结果 。 
15.12 当 你 使 用 程序 15.3 把 包含 线索 中 已 经 存在 的 关键 字 的 一 个 记录 插入 到 线索 中 会 出 现 什 
么 结果 ? | 
15.13 画 出 把 带 有 关键 字 01010011 00000111 00100001 01010001 11101100 00100001 
10010101 01001010 的 数据 项 按照 此 顺序 插入 到 初始 为 空 的 线索 中 的 结果 。 
15.14 ”进行 实验 研究 ， 比 较 线索 、 标 准 二 又 搜索 树 和 红 黑 树 的 高 度 、 节 点 个 数 和 内 部 路 径 长 
度 。 这 个 线索 由 NN 个 随机 32 位 关键 字 插 入 到 初始 为 空 的 线索 而 得 ， 标 准 二 又 搜索 树 和 红 黑 树 
(第 13 章 ) 使 用 同一 组 关键 字 构 建 而 得 ， 其 中 和 N= 10"，104，105 和 105 ( 见 练习 15.6) 。 
15.15 ”给 出 含有 N 个 不 同 w 位 的 关键 字 的 线索 的 最 坏 情 况 下 内 部 路 径 长 度 的 完整 刻画 。 

。15.16 ”实现 基于 线索 的 符号 表 的 delete 操 作 。 

c15.17 实现 基于 线索 的 符号 表 的 select 操 作 。 
15.18 实现 基于 线索 的 符号 表 的 sort 操 作 。 

>15.19 编写 一 个 打印 线索 中 与 给 定 搜索 关键 字 具 有 相同 开始 t 位 的 所 有 关键 字 的 程序 。 

15.20 使 用 C 语 言 的 union 函 数 以 及 带 有 只 含 链接 不 含 数据 项 的 非 叶 节点 、 只 含 数 据 项 不 含 
链接 的 叶 节点 的 线索 来 开发 search 和 insert 的 实现 。 
15.21 修改 程序 15.3 和 程序 15.2， 把 搜索 关键 字 保存 在 机 器 的 寄存 器 中 ， 并 在 线索 中 向 下 移 
动 一 层 时 ， 通 过 移动 一 位 的 位 置 来 访问 下 一 位 。 
15.22 修改 程序 15.3 和 程序 15.2, 使 之 维持 一 个 大 小 为 2 的 线索 表 (其 中 7 是 一 个 固定 的 常数 )， 
并 使 用 关键 字 的 前 r 位 来 索引 表 ， 标 准 算法 及 关键 字 的 其 余部 分 访问 线索 。 如 果 表 中 的 空 记 录 
不 多 ， 这 种 变化 可 以 节省 r 步 的 操作 。 
15.23 在 练习 15.22 中 ， 如 果 我 们 有 N 个 随机 关键 字 (假设 关键 字 足 够 长 并 且 互 不 相同 )， 那 
么 r 值 应 该 如 何 选取 ? 
15.24 编写 一 个 程序 ， 通 过 排序 和 比较 有 序 表 中 的 近邻 关键 字 来 计算 线索 中 的 节点 数 。 线 索 
与 一 个 给 定 的 无 重复 的 定 长 关键 字 集 对 应 。 

。*15.25 用 归纳 法 证 明 NZ,>o (1 一 (1 一 2“)*) 是 类 似 快速 排序 递 推 公式 的 解 。 该 公式 可 由 随机 线 
索 中 外 部 路 径 长 度 的 性 质 15.4 给 出 。 

。15.26 ”导出 性 质 15.4 中 给 出 的 随机 线索 中 所 含 的 平均 节点 数 的 表达 式 。 

“15.27 编写 一 个 程序 计算 N 个 节点 的 随机 线索 中 的 平均 节点 数目 ， 并 精确 到 10“， 其 中 入 = 
103，104，105 和 104。 

15.28 证 明 由 N 个 随机 位 串 所 构建 的 线索 的 高 度 约 为 21gNW。 提 示 : 考虑 生日 问题 ( 见 性 质 
14.2) 。 

。15.29 证 明 由 随机 关键 字 所 构建 的 一 棵 DST 的 搜索 的 平均 开销 约 为 lg N ( 见 性 质 15.1 和 性 质 
15.2)。 
15.30 ”修改 程序 15.2 和 程序 15.3， 使 之 能 够 处 理 变 长 位 串 ， 要 求 具有 重复 关键 字 的 记录 不 在 
数据 结构 中 保存 。 假 设 如 果 w 大 于 v 的 长 度 ，bit(v，w) 输 出 值 NULLdigit。 
15.31 使 用 线索 构建 一 个 能 够 支持 w 位 整数 的 存在 表 ADT 的 数据 结构 。 程 序 应 该 支持 
initialize、insert 和 search 操 作 ， 其 中 search 和 insert 以 整数 作为 参数 。 搜 索 失 败 时 ，search 返 同 
NULLkey， 搜 索 命中 时 ， 它 返回 给 定 的 参数 。 
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15.3 帕 氏 线索 


在 15.2 节 中 描述 的 基于 线索 的 搜索 有 两 个 缺点 。 一 是 单 路 分 支 导致 在 线索 中 建立 额外 但 不 
需要 的 节点 ， 二 是 线索 中 有 两 种 不 同类 型 的 节点 使 代码 有 些 复杂 。1968 年 ，Morrison 发 现 了 
解决 上 述 问题 的 方法 ， 提 出 了 帕 氏 线索 (他 是 根据 算法 的 名 称 摘 取 其 中 部 分 字母 而 命名 )。 
Meorrison 根 据 我 们 将 在 15.5 节 中 分 析 的 字符 串 索 引 的 应 用 研制 了 他 的 算法 ， 但 是 该 算法 和 符号 
表 一 样 高 效 。 就 像 DST， 帕 氏 线 索 可 以 在 只 有 N 个 节点 的 树 中 搜索 N 个 关键 字 。 像 线索 一 样 ， 
每 次 搜索 需要 大 约 lg N 次 位 比较 和 一 次 整个 关键 字 的 比较 ， 并 且 支 持 其 他 ADT 操 作 。 此 外 ， 
其 性 能 与 关键 字 的 长 度 无 关 。 该 数据 结构 同时 适用 于 变 长 关键 字 的 情况 。 

由 标准 的 线索 数据 结构 开始 ， 我 们 可 以 通过 一 种 简单 的 方法 来 避免 单 路 分 支 ; 在 每 个 节 
点 中 存储 要 测试 的 位 的 序号 ， 并 由 此 来 决定 比较 完 该 节点 之 后 要 选取 的 路 径 。 这 样 ， 我 们 就 
可 以 跳 过 子 树 上 所 有 对 应 的 位 相同 的 关键 字 ， 从 而 进行 直接 的 比较 。 而 且 ， 我 们 还 采用 另 一 
种 简单 的 方法 来 避 开 外 部 节点 : 把 所 有 数据 存储 在 内 部 节点 ， 并 将 指向 外 部 节点 的 链接 替代 
为 指向 相应 线索 中 内 部 节点 的 链接 。 上 述 两 种 方法 的 采用 使 得 我 们 可 以 用 包含 关键 字 和 两 个 
链接 (还 有 一 个 保存 索引 的 域 ) 的 二 又 树 构 成 线索 。 这 样 的 数据 结构 就 称 为 帕 氏 线索 。 在 帕 
氏 线索 中 ， 我 们 像 DST 那 样 把 关键 字 存 储 在 节点 中 ， 并 根据 搜索 关键 字 的 位 来 遍历 该 树 ， 但 
不 采用 沿 树 下 移 的 方法 进行 遍历 ， 只 是 将 关键 字 存储 在 那里 以 便 到 达 树 底 时 方便 以 后 访问 。 

正如 上 上段 所 瞳 示 的 ， 如 果 把 标准 线索 和 帕 氏 线索 看 作 线索 这 一 抽象 数据 结构 的 两 种 不 同 
的 表示 方法 ， 我 们 就 容易 理解 帕 氏 线索 的 算法 机 理 了。 例如 图 15-10 和 图 15-11 的 上 图 给 出 的 两 
个 例子 ， 解释 了 进行 帕 氏 线索 的 搜索 和 插入 过 程 。 它 们 和 图 15-6 中 的 线索 表示 相同 的 抽象 结 
构 。 帕 氏 线 索 中 所 使 用 的 搜索 和 插入 算法 、 构 建 和 维持 一 个 抽象 线索 数据 结构 的 具体 表示 不 
同 于 15.2 节 讨论 的 搜索 和 插入 算法 ， 但 基本 的 线索 抽象 是 一 样 。 





图 15-10 帕 氏 线索 图 15-11 帕 氏 线索 插入 操作 


注 : 这 棵 帕 氏 线索 给 出 了 对 关键 字 R = 10010 进 行 成 功 注 : 要 把 [插入 到 图 15-10 的 帕 氏 线索 中 ， 我 们 增加 一 个 
搜索 的 过 程 (上 图 )。 首先 向 右 移 (因为 第 0 位 是 1)， 新 节点 来 检查 第 4 位 ， 因 为 H = 01000 和 I = 01001 只 
接着 向 左 移 (因为 第 4 位 是 0)， 然 后 到 达 R ( 它 是 在 第 4 位 不 同 《上 图 )。 在 线索 中 ， 如 有 果 随 后 搜索 遇 
树 中 以 1***0 开 头 的 惟一 关键 字 )。 洛 着 树 下 移 ， 到 一 个 新 节点 ， 搜 索 关 键 字 的 第 4 位 是 0， 我 们 就 要 
我 们 只 比较 节点 中 用 数 指示 的 关键 字 的 位 (而 忽 比较 H ( 左 链 接 ) ; 如 果 搜 索 关 键 字 的 第 4 位 是 1 
略 节点 中 的 关键 字 ) 。 当 我 们 第 一 次 到 达 向 上 指向 ( 右 链 接 ) ， 则 要 比较 的 关键 字 是 I。 

的 链接 时 ， 比 较 搜 索 关 键 字 与 向 上 链接 所 指向 的 要 村 入 N = 01110 (下 图 )， 我 们 在 HH 和 I 之 间 
节点 中 的 关键 字 ， 因 为 这 是 树 中 可 能 与 搜索 关键 增加 一 个 新 节点 ， 用 于 比较 第 2 位 ， 因 为 该 位 把 N 
字 相 等 的 惟一 关键 字 。 与 H 和 I 区 分 开 。 


在 对 I = 01001 进 行 的 一 次 不 成 功 的 搜索 中 ， 
我 们 从 根 节 点 向 左 移 (因为 关键 字 的 第 0 位 是 0)， 
然后 右 移 (因为 第 1 位 是 1)， 找 到 不 等 于 I 的 H 
《线索 中 以 01 开 始 的 惟一 关键 字 ) 。 
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程序 15.4 给 出 了 帕 氏 线索 搜索 算法 的 实现 。 访 方法 与 普通 的 搜索 有 三 点 不 同 : 不 存在 显 式 
的 空 链 接 ， 我 们 直接 比较 关键 字 中 指定 位 而 不 是 比较 相 邻 的 下 一 位 ， 并 且 到 达 树 中 某 个 向 上 
指 的 链接 时 进行 一 次 关键 字 比 较 就 结束 搜索 过 程 。 检 测 某 个 链接 是 否 向 上 指 很 容易 实现 ， 因 
为 〈 由 定义 ) 沿 树 下 移 ， 这 类 节点 中 存储 的 位 的 序号 会 增加 。 搜 索 过 程 如 下 : 从 根 出 发 ， 沿 
树 下 移 ， 使 用 节点 中 的 位 序号 比较 搜索 关键 字 中 的 各 位 一 一 如 果 当 前 位 是 1 就 右 移 ， 是 0 就 左 
移 。 在 遍历 过 程 中 节点 中 的 关键 字 完 全 不 用 进行 比较 。 最 后 ， 我 们 遇 到 向 上 的 链接 。 如 果 每 
个 同上 的 链接 指向 的 元 素 等 于 搜索 关键 字 ， 则 搜索 命中 ， 否则 ， 搜索 失败 ， 从 而 完成 搜索 。 


“程序 15.4 ,四 氏 线 索 搜索 oy 0 

递归 函数 searchR 返 回 可 和 包含 关键 字 v 的 记录 的 惟一 地 点 。 它 在 线索 中 向 下 遍历 ， 使 用 

树 中 的 位 来 控制 搜索 过 程 , 但 只 测试 所 过 到 的 每 个 节点 中 的 一 位 ,也 就 是 bit 域 中 指定 的 那 位 。 

当 它 遇 到 一 个 向 上 指向 的 外 部 链接 时 ， 则 停止 搜索 过 程 。 搜 索 函 数 STsearch 调 用 searchR， 
然后 测试 那个 节点 中 的 关键 字 ， 以 确定 本 次 搜索 是 成 功 还 是 失败 。 


Item searchR(link h, Key v, int w) 
{ 
if (h->bit <= WwW) return h->itenm; 
if (digit(v, h->bit) == 0) 
return searchR(h->1, v, h->bit); 
else return searchR(h->r, v, h->bit); 
} 
Item STsearch(Key v) 
{ Item t = searchR(head->1, v, -1); 
return eq(v, key(t)) ? t : NULLitem; 
} 


图 15-10 说 明了 帕 氏 线索 的 搜索 过 程 。 帕 氏 线索 的 搜索 过 程 与 标准 线索 的 搜索 过 程 有 些 不 
同 。 遍 有 历 过 程 中 相应 于 单 分 支 的 位 都 设 有 比较 ， 而 标准 线索 的 搜索 失败 是 由 于 搜索 中 的 空 链 
接 。 对 于 一 个 结束 于 线索 中 的 叶 节 点 的 搜索 而 言 ， 帕 氏 线索 搜索 结束 比较 的 关键 字 与 线索 结 
束 比较 的 关键 字 一 样 ， 但 帕 氏 线索 不 比较 对 应 于 单 分 支 的 那些 位 。 

图 15-11 说 明了 帆 氏 线索 的 插入 实现 对 应 着 线索 中 插入 的 两 种 情况 。 通 常 ， 我 们 可 以 从 搜 
索 失 败 得 到 一 个 新 的 关键 字 所 属 的 地 方 。 对 于 线索 而 言 ， 这 种 失败 可 能 是 由 空 链 接 引起 的 或 
是 由 叶 节 点 的 关键 字 失 配 引起 的 。 对 帕 氏 线索 而 言 ， 我 们 需要 额外 的 工作 来 决定 需要 插入 的 
类 型 ， 因 为 搜索 过 程 中 我 们 跳 过 了 对 应 单 分 支 的 那些 位 。 帕 氏 线 索 搜索 总 是 结束 于 一 次 关键 
字 的 比较 ， 而 且 这 个 关键 字 携 带 了 我 们 需要 的 信息 。 一 旦 我 们 找到 搜索 关键 字 与 结束 搜索 的 
关键 字 在 最 左 位 的 位 置 上 不 同 ， 就 要 重新 遍历 搜索 ， 与 搜索 路 径 上 市 点 的 位 位 置 进行 比较 。 
如 果 在 搜索 过 程 中 我 们 遇 到 一 个 节点 ， 其 指定 位 的 位 置 高 于 搜索 的 关键 字 与 找到 的 关键 字 不 
相等 位 的 位 置 ， 那 么 我 们 得 知 在 帕 氏 线索 搜索 中 跳 过 的 一 位 ， 将 会 是 对 应 线索 搜索 中 引起 空 
链接 的 位 。 因 此 ， 我 们 播 入 一 个 新 节点 来 检查 那 一 位 。 如 果 在 搜索 过 程 中 我 们 从 未 遇 到 一 个 
节点 ， 其 指定 位 的 位 置 高 于 搜索 的 关键 字 与 找到 的 关键 字 不 相等 位 的 位 置 ， 那 么 ， 帕 氏 线索 
搜索 与 结束 于 叶 节 点 的 线索 搜索 对 应 ， 此 时 ， 我 们 插入 一 个 新 节点 以 区 分 搜索 关键 字 与 结束 
搜索 的 关键 字 。 我 们 每 次 只 需 插入 一 个 节点 ， 以 引用 区 分 关键 字 的 最 左边 的 位 。 而 在 标准 线 
索 的 播 人 过 程 中 ， 在 单 分 支 上 要 揪 和 人 多 个 节点 才能 到 达 那 个 位 。 新 节点 除了 给 我 们 提供 所 需 
的 位 辨别 外 ， 还 用 来 存放 将 要 播 和 人 的 新 的 关键 字 。 图 15-12 给 出 了 一 个 构造 帕 氏 线索 前 几 步 的 
例子 。 
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图 15-12 帕 氏 线索 构造 


注 : 这 一 图 序列 描绘 了 把 关键 字 A SERCH 插 入 到 初始 为 定 的 帕 氏 线索 的 过 程 。 图 15-11 的 下 图 描绘 了 先 插 入 I， 
再 插入 N 的 结果 。 


程序 15.5 是 帕 氏 线索 插入 算法 的 一 种 实现 。 代 码 可 由 上 段 的 描述 直接 得 出 ， 并 且 我 们 所 使 
用 的 链接 指向 的 节点 ， 其 包含 的 位 索引 不 大 于 当前 指向 外 部 节点 的 位 索引 。 因 而 ， 这 段 代码 
只 测试 链接 的 这 个 性 质 ， 而 根本 不 用 移动 关键 字 或 者 周围 的 链接 。 帕 氏 线索 中 向 上 的 链接 乍 
一 看 很 奇妙 ， 但 是 当 插 入 每 个 节点 上 时， 决定 使 用 哪个 链接 却 极其 直接 。 最 终结 果 是 采用 一 个 
节点 类 型 ， 而 不 是 两 个 节 态 类型， 大 大 地 简化 了 代码 。 


: 程序 15.5 帕 氏 线索 插入 、 ， a 

要 把 关键 字 插 入 到 线索 中 ， 开始 进行 一 次 搜索 。 程序 15.4 中 的 函数 searchR 得 到 树 中 的 惟 
一 关键 字 ， 它 必须 与 待 插入 的 关键 字 区 分 开 。 我 们 确定 该 关键 字 与 搜索 关键 字 不 同 的 最 左 位 的 
位 置 ， 然 后 ， 使 用 递归 函数 insertR 在 树 中 向 下 遍历 ， 并 在 那个 位 置 插入 包含 v 的 一 个 新 节点 。 

在 insertR 中 ,分 两 种 情况 。 图 15-11 描 述 了 与 此 对 应 的 两 种 情况 。 新 节点 可 以 代替 一 个 
内 部 链接 (如 果 搜 索 关 键 字 与 找到 的 位 被 跳 过 的 关键 字 不 同 ) ， 或 者 一 个 外 部 链接 (如 果 区 分 
搜索 关键 字 与 找到 的 关键 字 的 位 ， 不 需要 用 来 把 找到 的 关键 字 从 线索 中 的 其 他 关键 字 中 区 分 
出 来 )。 


void STinit() 
{ head = NEW(NULLitem, 0, 0, -1); 
head->1 = head; head->r = head; } 
link insertR(link h, Item item, int w, link p) 
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{ link x; Key v = key(item); 
if ((h->bit >= w) 1| (h->bit “= p->bit)) 
{ 
x = NEW(item, 0, 0, Ww); 
X->1 = digit(v, x->bit) 了 h : x; 
x->r = digit(v, x->bit) ?了 x : h; 
return XI; 
} 
if (digit(v，h->bit) == 0) 
h->1 = insertR(h->1, item, w, h); 
else h->r = insertR(h->r, item, WwW, h); 
return h; 
} 
void STinsert (Item item) 
{ int i; 
Key v = key(item) ; 
Key t = key(searchR(head->1, v, -1)); 
if (v == t+) return; 
for (i = 0; digit(v, i) == digit(t, i); i++) ; 
head->1 = insertR(head->l1, item, i, head); 
} 


帕 氏 线索 建立 之 后 ， 位 索引 为 的 节点 下 面 的 所 有 外 部 节点 前 k 位 相同 (否则 ， 我 们 就 建 
立 一 个 位 索引 小 于 K 的 节点 ， 以 示 区 别 ) 。 因 此 ， 我 们 在 其 位 被 跳 过 的 那些 节点 之 间 增 加 合适 
的 内 部 节点 ， 并 用 指向 外 部 节点 的 链接 替换 向 上 指向 的 链接 ， 就 可 以 把 帕 氏 线索 转换 为 标准 
线索 〈 见 练习 15.47) 。 然 而 ， 性 质 15.2 对 于 帕 氏 线索 并 不 完全 成 立 ， 因 为 给 内 部 节点 分 配 的 关 
键 字 依 赖 于 关键 字 插 入 的 顺序 。 内 部 节点 的 结构 独立 于 关键 字 插 入 的 顺序 ， 但 是 外 部 链接 和 
关键 字 的 分 配 却 相反 。 

帕 氏 线索 表示 一 种 基本 的 标准 线索 结构 的 事实 ， 可 得 出 一 个 重要 的 结论 : 我 们 可 以 使 用 
递归 中 序 遍 历 按 序 访问 节点 ， 正 如 程序 15.6 给 出 的 实现 所 表明 的 那样 。 我 们 只 访问 外 部 节点 ， 
通过 测试 非 递 痢 位 的 索引 来 区 分 它们 。 


程序 15.6” 帕 氏 线索 排序 


这 个 递归 过 二 程 按照 关键 字 的 次 序 ， 访问 帕 氏 线索 中 的 记录 。 我 们 把 数据 项 想象 为 (虚拟 
的 ) 外 部 节点 ， 并 通过 检查 当前 节点 的 位 索引 不 大 于 其 父 节点 的 位 索引 来 识别 这 些 外 部 节点 。 
否则 ， 这 个 程序 是 标准 的 中 序 遍 历 。 

void sortR(link h, void (x*visit) (Item), int w) 

{ 
if (h->bit <= w) { visit(h->item); return; } 
sortR(h->1, visit, h->bit); 
sortR(h->r, visit, h->bit); 
} 
void STsort(void (*visit) (Item)) 
{ sortR(head->1, visit, -1); } 





帕 氏 线索 体现 了 基数 搜索 方法 的 精 侨 ， 它 设法 识别 出 能 够 区 分 搜索 关键 字 的 那些 位 ， 建 
立 它们 的 数据 结构 (没有 多 余 节 点 ) ， 并 能 够 快速 地 从 数据 结构 中 找到 与 搜索 关键 字 可 能 相等 
的 惟一 关键 字 。 图 15-13 显 示 了 用 于 构建 图 15-9 线 索 的 同一 组 关键 字 的 帕 氏 线索 。 帕 氏 线 索 不 
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仅 比 标准 线索 少 44% 的 节点 ， 而 且 近 平 完 全 的 平衡 。 


图 15-13 帕 氏 线索 示例 
注 : 这 棵 帕 氏 线索 是 插入 200 个 随机 关键 字 构造 而 成 。 它 等 价 于 去 掉 单 分 支 的 图 15-9 的 线索 。 结 果树 几乎 是 完 
全 平衡 的 。 

性 质 15.5 在 N 个 随机 位 囊 所 构成 的 帕 氏 线索 中 进行 随机 关键 字 的 插入 或 搜索 ， 平 均 需 要 
大 约 lg N 次 位 比较 ， 在 最 坏 情况 下 大 约 需 要 2lg N 次 位 比较 。 位 比较 的 数目 永远 不 会 超过 关键 
字 的 长 度 。 

这 个 事实 可 由 性 质 15.3 直 接 而 得 ， 这 是 由 于 帕 氏 线索 的 路 径 长 度 不 会 比 对 应 的 线索 的 路 径 
长 度 更 长 。 关 于 帕 氏 的 精确 的 平均 情况 分 析 非 常 困难 。 结 论 是 ， 平 均 来 说 ， 帕 氏 包 含 的 比较 
次 数 比 标准 线索 的 比较 次 数 更 少 〈 见 第 四 部 分 参考 文献 ) 。 一 

考虑 到 我 们 前 面 提 到 的 各 种 直接 的 权衡 ， 表 15-1 给 出 了 当 关 键 字 是 整数 且 肯 定 可 以 用 符 
号 表 实 现时 的 一 些 数据 来 支持 DST、 标 准 二 又 线索 和 帕 氏 线索 具有 可 比 性 的 结论 (并 且 这 些 
数据 提供 了 一 些 可 比 的 搜索 时 间 ， 或 是 比 第 13 章 中 的 平衡 树 方法 更 少 的 时 间 )， 即 使 在 关键 字 
可 以 表示 为 短 位 串 时 也 是 如 此 。 

表 15-1 线索 表 实现 的 实验 研究 

对 于 32- 位 整数 的 随机 序列 ， 这 些 构建 和 搜索 符号 表 的 相对 时 间 证 实 了 数字 方法 与 平衡 树 方法 是 相当 的 ， 即 使 对 
于 随机 位 的 关键 字 也 是 如 此 。 当 关键 字 长 度 较 长 且 没 有 必要 是 随机 状态 时 ( 见 表 15.2) 或 是 经 过 仔细 其 酌 使 访问 关键 
字 位 的 代码 有 效 执行 〈 见 练习 15.21) 时 ， 性 能 差异 就 越 显著 。 





AN 构造 搜索 命中 
B D T P B D T P 
1250 1 I 1 1 0 1 1 0 
2500 2 2 4 3 1 1 2 1 
5000 4 5 7 7 3 2 3 2 
12500 18 15 20 18 8 7 9 7 
25000 40 36 44 41 20 17 20 17 
50000 81 80 99 90 43 41 47 36 
100000 176 167 269 242 103 85 101 92 
200000 411 360 544 448 228 179 211 182 


其 中 : 

B 红 黑 BST (程序 12.7 和 程序 13.6) 
D DST (程序 15.1) 

T 线索 (程序 15.2 和 程序 15.3) 

P 帕 氏 线索 (程序 15.4 和 程序 15.5) 


我 们 注意 到 由 性 质 15.5 给 出 的 搜索 开销 并 不 会 随 着 关键 字 的 长 度 增加 。 对 比 之 下 ， 在 一 个 


标准 线索 中 的 搜索 开销 依赖 于 关键 字 的 长 度 ， 两 个 给 定 关键 字 出 现 不 同 的 第 一 个 位 的 位 置 可 
以 相隔 任意 远 (关键 字 内 )。 我 们 考虑 过 的 所 有 基于 比较 的 搜索 方法 也 依赖 于 关键 字 的 长 度 ， 
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如 果 两 个 关键 字 只 在 它们 最 远 的 位 不 同 ， 那 么 比较 它们 就 需要 与 其 长 度 成 正比 的 时 间 。 而 且 ， 
由 于 要 计算 散 列 函 数 ， 散 列 算法 的 一 次 搜索 时 间 总 是 与 关键 字 的 长 度 成 正比 。 但 是 帕 氏 线索 
直接 比较 关键 字 的 第 一 个 不 同位 ， 一 般 只 需 少 于 lg N 次 的 比较 。 当 关键 字 较 长 时 ， 这 个 性 能 
得 帕 氏 (或 者 单 分 支 已 去 掉 的 线索 搜索 ) 成 为 搜索 方法 的 首选 。 

例如 ， 假 设 我 们 的 计算 机 可 以 高 效 地 访问 8 位 字 节 长 的 数据 ， 并 且 必 须 在 数 百 万 个 100 位 
长 的 关键 字 中 进行 搜索 。 那 么 ， 柏 氏 线 索 只 需要 访问 搜索 关键 字 中 的 大 约 20 个 字 节 和 一 个 相 
当 于 125 位 字 节 的 比较 ， 而 散 列 则 要 求 访问 搜索 关键 字 的 所 有 125 个 字 节 ， 来 计算 散 列 函 数 ， 
并 加 上 几 个 同等 的 比较 ， 基 于 比较 的 方法 要 求 20 到 30 次 整个 关键 字 的 比较 。 关 键 字 比较 ， 特 
别 是 在 搜索 早期 阶段 的 比较 ， 只 需要 几 个 字 节 的 比较 ， 但 在 后 期 阶段 涉及 大 量 的 比较 。 我 们 
将 在 15.5 节 针对 较 长 关键 字 的 搜索 ， 再 次 考虑 这 些 算法 的 可 比较 的 性 能 。 

实际 上 ， 帕 氏 线 索 对 于 搜索 关键 字 的 长 度 并 没有 限制 。 帕 氏 线 索 对 于 那些 带 有 可 能 很 大 
的 变 长 关键 字 的 应 用 特别 高 效 。 我 们 将 在 15.5 节 中 讨论 。 使 用 帕 氏 线索 ， 可 以 期 望 在 N 个 记录 
的 一 次 搜索 中 ， 需 要 的 位 检测 数 大 约 与 lg N 成 正比 ， 即 使 对 于 大 型 关键 字 ， 该 结论 也 成 立 。 
练习 
15.32 ” 当 使 用 程序 15.5 把 包含 线索 中 已 经 存在 的 关键 字 的 一 个 记录 插入 到 线索 中 会 出 现 什么 
结果 ? 
>15.33 ” 夯 出 把 带 有 关键 字 E A SY Q UTIO N 的 数据 项 按照 此 顺序 插入 到 初始 为 空 的 线索 中 
得 到 的 帕 氏 线索 的 结果 。 
15.34 ” 画 出 把 关键 字 01010011 00000111 00100001 01010001 11101100 00100001 10010101 
01001010 按 照 此 顺序 播 入 到 初始 为 空 的 线索 中 得 到 的 帕 氏 线索 的 结果 。 
o15.35 画 出 把 关键 字 01001010 10010101 00100001 11101100 01010001 00100001 00000111 
01010011 按 照 此 顺序 插入 到 初始 为 空 的 线索 中 得 到 的 帕 氏 线索 的 结果 。 
15.36 ”进行 实验 研究 ， 比 较 帕 氏 线 索 、 标 准 二 又 搜索 树 和 红 黑 树 的 高 度 和 内 部 路 径 长 度 ， 帕 
氏 线 索 由 把 N 个 随机 32 位 关键 字 插 入 到 初始 为 空 的 线索 而 得 ， 标 准 二 又 搜索 树 和 红 黑 树 (第 13 
章 ) 使 用 同一 组 关键 字 构 建 而 得 ， 其 中 N = 103，10$，10 和 10 ( 见 练习 15.6 和 练习 15.4)。 
15.37 ”给 出 含有 不 同 w 位 的 N 个 关键 字 的 帕 氏 线索 在 最 坏 情况 下 内 部 路 径 长 度 的 完整 刻画 。 
>15.38 实现 基于 帕 氏 线索 的 符号 表 的 select 操 作 。 
*“15.39 ”实现 基于 帕 氏 线索 的 符号 表 的 delete 操 作 。 
“15.40 ”实现 基于 帕 氏 线索 的 符号 表 的 join 操作 。 
015.41 编写 一 个 打印 帕 氏 线索 中 与 给 定 搜索 关键 字 具 有 相同 开始 t 位 的 所 有 关键 字 的 程序 。 
15.42 修改 标准 线索 搜索 和 插入 过 程 (程序 15.2 和 程序 15.3)， 像 在 帕 氏 线索 中 的 那样 ， 消 除 
单 分 支 。 如 果 你 已 经 做 完 练习 15.20， 就 从 那个 程序 开始 。 
15.43 ”修改 帕 氏 搜索 和 插入 过 程 (程序 15.4 和 程序 15.5)， 使 之 维持 一 个 大 小 为 2 的 线索 表 ， 
如 在 练习 15.22 中 描述 的 那样 。 
15.44 证 明 帕 氏 线 索 中 的 每 个 关键 字 都 在 其 搜索 路 径 上 ， 并 在 搜索 操作 向 下 遍历 时 到 树 底 才 
遇 到 。 
15.45 ”修改 帕 氏 搜索 (程序 15.4)， 使 之 在 树 中 向 下 遍历 的 过 程 中 比较 关键 字 ， 以 便 改进 搜 
索 命 中 的 性 能 。 进 行 实验 研究 来 评价 这 个 改变 的 效果 ( 见 练习 15.44)。 
15.46 ”使 用 帕 氏 线索 来 构建 一 个 能 支持 w 位 整数 的 存在 表 ADT 的 数据 结构 ( 见 练习 15.31)。 
。15.47 ”针对 同一 组 关键 字 ， 编 写 一 个 能 把 帕 氏 线索 和 标准 线索 进行 相互 转换 的 程序 。 
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15.4 多 路 线索 和 TST 


对 于 基数 排序 ， 如 果 每 次 考虑 的 位 数 多 于 一 位 ， 就 可 以 显著 地 提高 搜索 算法 的 速度 。 这 
个 结论 对 基数 搜索 也 是 一 样 : 每 次 比较 r 位 ， 可 以 使 搜索 速度 快 r 倍 。 但 在 基数 搜索 中 采用 基 
数 排序 的 这 种 思想 需要 多 考虑 一 个 问题 ， 即 每 次 考虑 r 位 ， 对 应 着 要 使 用 R = 2 个 链接 的 树 节 
点 ， 无 用 链接 可 能 导致 大 量 空间 上 的 浪费 。 

在 15.2 布 介绍 的 (二 又) 线索 中 ， 对 应 关键 字 位 的 节点 有 两 个 链接 : 一 个 对 应 关键 字 位 为 
0 的 情况 ， 另 一 个 对 应 关键 字 位 为 1 的 情况 。 推 广 到 R 又 线索 ， 其 中 的 节点 包含 对 应 关键 字数 字 
的 R 个 链接 ,每 个 链接 代表 一 种 可 能 的 数值 。 关 键 字 存 储 在 叶 节 点 (它们 的 所 有 链接 为 空 ) 中 。 
要 在 R- 路 的 线索 中 搜索 ， 我 们 从 根 节 点 开始 ， 然 后 到 关键 字 的 最 左 位 ， 并 利用 关键 字 位 来 引 
导 树 中 向 下 的 搜索 过 程 。 如 果 关 键 字 位 的 值 是 i, 就 沿 着 第 i 个 链接 下 移 ( 移 到 下 一 个 关键 字 位 )。 
如 果 到 达 一 个 叶 节 点 ， 它 含有 线索 中 致使 数字 对 应 于 我 们 已 经 遍历 过 的 路 径 的 惟一 的 关键 字 ， 
我 们 就 能 够 通过 比较 那个 关键 字 与 搜索 关键 字 来 确定 是 搜索 命中 还 是 搜索 失败 。 如 果 我 们 到 
达 一 个 空 链 接 ， 就 是 搜索 失败 ， 因 为 这 个 链接 对 应 着 在 线索 任何 关键 字 中 找 不 到 的 最 高 位 的 
模式 。 图 15-14 显 示 了 一 个 10- 路 线索 ， 它 代表 十 进 制 数 的 一 个 样本 集合 。 正 如 我 们 在 第 10 章 
中 讨论 过 的 那样 ， 实 际 中 所 观察 到 的 数字 是 由 较 少 的 线索 节点 来 区 分 的 。 使 更 一 般 的 关键 字 
类 型 具有 同样 效果 是 一 些 高 效 搜索 算法 的 基础 。 





图 15-14 十 进 制 数 的 R- 路 线索 


注 : 这 个 图 描述 了 一 组 数字 集 的 线索 ， 每 个 节点 有 10 个 链接 (每 个 链接 指向 该 位 的 一 个 可 能 值 ) 。 在 树 根 节点 ， 
0 链接 指向 线索 中 第 一 位 为 0 的 关键 字 (只 有 一 个 ) ，1 链 接 糙 向 划一 位 为 [的 关键 字 〈 有 两 个 ) ， 以 此 类 推 。 
由 于 这 组 数字 没有 以 4、7、8 和 9 开始 的 关键 字 ， 因 而 ,这些 链接 是 空 链接 。 而 且 ， 以 0、2 和 5 开头 的 关键 
字 在 这 组 数 中 只 有 一 个 ， 因 而 ， 在 各 自 的 位 置 上 都 有 一 个 叶 节点 。 这 样 ， 每 次 右 移 一 位 ， 由 递归 程序 构造 
了 这 种 数据 结构 。 

在 介绍 多 节点 类 型 的 完整 符号 表 实 现 之 前 ， 我 们 先 要 研究 存在 表 问 题 ， 即 只 考虑 关键 字 
(而 没有 相应 的 记录 或 其 他 相关 信息 ) 和 将 关键 字 揪 入 某 数据 结构 并 在 其 中 搜索 该 关键 字 是 否 
被 正确 插入 的 算法 。 为 了 能 够 使 用 前 面 介 绍 的 几 种 符号 表 实 现 的 接口 ， 我 们 假设 Key 等 同 于 
Item， 并 采用 前 面 的 约定 ， 即 搜索 失败 的 返回 值 是 NULLitem， 搜 索 命 中 返回 搜索 关键 字 。 这 
一 约定 简化 了 代码 ， 并 清楚 地 揭示 了 我 们 考虑 的 多 路 线索 的 结构 。 在 15.5 节 中 ， 我 们 将 讨论 
包括 字符 串 索 引 在 内 的 多 种 符号 表 实 现 。 

定义 15.2 对 应 一 组 关键 字 集 的 存在 线索 ， 递 归 定 义 如 下 : 关键 字 为 空 集 的 存在 线索 是 一 
个 空 链 接 ;， 非 空 关 键 字 集 的 存在 线索 是 带 有 链接 的 内 部 节点 ， 这 些 链接 指向 每 个 可 能 关键 字 
位 的 线索 ， 在 构造 该 节点 的 子 树 时 不 考虑 关键 字 的 最 高 位 。 

为 简单 起 见 ， 这 个 定义 中 假设 无 关键 字 是 其 他 关键 字 的 前 级 。 一 般 地 ， 我 们 加 上 这 个 限 
制 ， 以 确保 关键 字 互 不 相同 ， 并 且 关 键 字 是 定 长 的 或 者 有 终结 字符 。 这 一 定义 的 意义 是 我 们 
可 以 使 用 存在 线索 来 实现 存在 表 ， 而 不 需要 把 任何 信息 存储 在 线索 内 ， 信 息 都 隐 含 地 定义 在 
线索 的 结构 内 。 每 个 节点 有 R+1 个 链接 (一 个 链接 用 于 每 种 可 能 的 字符 值 ， 加 上 一 个 链接 用 于 
终结 字符 NULLdigit)， 再 无 其 他 信息 。 搜 索 时 ， 使 用 关键 字 中 的 数字 来 引导 在 线索 中 向 下 搜 
索 的 过 程 。 如 果 我 们 到 达 一 个 指向 NULLdigit 的 链接 ， 同 时 关键 字 位 用 尽 ， 则 搜索 命中 ， 否 则 ， 
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搜索 失败 。 插 入 一 个 新 的 关键 字 时 ， 我 们 搜索 直到 遇 到 一 个 空 链 接 ， 然 后 ， 为 关键 字 中 的 每 


一 位 增加 一 个 节点 。 图 15-15 给 出 了 一 个 27- 路 的 线索 ， 程 序 15.7 给 出 了 一 个 基本 (多 路 ) 存在 
线索 的 搜索 和 插入 算法 的 实现 。 





图 15-15 R- 路 存在 线索 的 搜索 和 插入 


注 ; 对 于 关键 字 now、is 和 the (上 图 ) 的 26- 路 线索 中 有 9 个 节点 : 根 节 点 加 上 每 个 字母 对 应 的 一 个 节点 。 图 中 
用 字母 对 节点 标号 ， 但 数据 结构 中 没有 使 用 显 式 的 节点 标号 ， 因 为 每 个 节点 标号 都 可 以 从 其 父 节点 的 链接 
数组 中 指向 其 本 身 的 链接 推导 出 来 。 

要 插入 关键 字 time， 我 们 对 存在 节点 t 进 行 拆 分 ， 并 添加 新 节点 1、m 和 e (中 国 ) 。 要 插入 关键 字 for ， 
我 们 对 根 节点 进行 拆 分 ， 并 添加 新 节点 f、0 和 Tr。 


“程序 15.7 存在 线索 的 搜索 和 插入 


这 个 多 路 线索 上 的 search 和 insert 操 作 的 实现 假设 了 Key 和 Item 是 一 样 的 (digit 已 定义 ， 
如 在 10.1 节 所 讨论 的 )。 它 把 关键 字 隐 含 地 存储 在 线索 的 结构 内 。 每 个 节点 包含 指向 线索 中 下 
一 层 的 R 个 链接 。 当 关键 字 的 第 个 数字 是 时， 我 们 在 第 ! 层 跟踪 第 i 个 链接 。search 函 数 返 回 作 
为 参数 给 出 的 关键 字 ， 如 果 这 个 关键 字 在 表 中 ， 否 则 ， 返 回 NULLitem。 
typedef struct STnode *link; 
struct STnode { link nextfR] ; }:; 
static link head; 
void STinit() { head = NULL; } 
link NEWC) 
{ int 1; 
link x = malloc(sizeof *X) ; 
for (i = 0; i < R; i++) x->next[i] = NULL ; 
return X; 
} 
Item searchR(link h, Key v, int V) 
{ int i = digit(v, Ww); 


各 153 音 基 炎 搜索 42] 





if (h == NULL) return NULLitem; 
if (i == NULLdigit) return vi 
return searchR(h->next[i], v, w+1); 


Item STsearch(Key v) 
{ return searchR (head, v, 0); } 
link insertR(link h, Item item, int w) 
{ Key v = key(item); 
int i = digit(v, w); 
if (h == NULL) h = NEW() ; 
if (i == NULLdigit) return h; 
h->next [i] = insertR(h->next[i], v, wt+1); 
return h; 
了 
void STinsert(Item item) 
{ head = insertR(head, item, 0); } 





对 于 定 长 且 关 键 字 值 互 不 相同 的 关键 字 ， 我 们 可 以 省 掉 分 配给 结束 符 的 链接 ， 并 且 可 以 
在 搜索 达到 关键 字 长 度 的 时 候 结 束 搜索 ( 见 练习 15.54)。 我 们 在 使 用 线索 来 描述 对 定 长 关键 
字 进 行 MSD 排 序 时 ， 已 经 看 到 这 种 类 型 线索 的 一 个 例子 (图 10-10)。 

从 某 种 意义 上 说 ， 线 索 结 构 的 这 种 纯粹 抽象 表示 是 最 优 的 ， 因 为 在 最 坏 情 况 下 其 搜索 的 
时 间 开 销 与 关键 字 长 度 成 正比 ， 而 空间 开销 与 关键 字 中 字符 个 数 成 正比 。 但 总 的 空间 使 用 对 
每 个 字符 高 达 近 R 个 链接 ， 因 而 ， 我 们 寻求 改进 的 实现 方法 。 如 在 二 又 线索 中 所 看 到 的 ， 我 们 
可 以 把 纯粹 线索 结构 看 作 一 种 关键 字 集 的 良 定义 表示 的 基本 抽象 结构 ， 然 后 ， 再 考虑 可 能 导 
致 更 好 性 能 的 同一 种 抽象 结构 的 其 他 表示 方法 。 

定义 15.3 ”多 路 线索 (multiway trie) 是 一 种 多 路 树 ， 每 个 叶 节 点 关联 一 个 关键 字 ， 递 归 
定义 如 下 : 关键 字 为 空 集 的 多 路 线索 是 一 个 空 链 接 ; 单个 关键 字 的 线索 是 一 个 包含 那个 关键 
字 的 叶 节 点 ; 集合 大 小 大 于 1 的 关键 字 集 的 线索 是 带 有 链接 的 内 部 节点 ， 这 些 链接 指向 关键 字 
的 每 个 可 能 位 值 的 线索 ， 在 构造 该 节点 的 子 树 时 不 考虑 关键 字 的 最 高 位 。 

我 们 假设 数据 结构 中 的 关键 字 各 不 相同 ， 没 有 一 个 关键 字 是 另 一 个 关键 字 的 前 缀 。 要 在 
标准 多 路 线索 中 进行 搜索 ， 我 们 使 用 关键 字 的 位 来 导 引 线索 中 向 下 的 搜索 ， 可 能 有 三 种 结果 。 
如 果 我 们 到 达 一 个 空 链接 ， 则 搜索 失败 ， 如 果 我 们 到 达 一 个 包含 搜索 关键 字 的 叶 节 点 ， 则 搜 
过 命中， 如 果 我 们 到 达 一 个 包含 不 同 关键 字 的 叶 节 点 , 则 搜索 类 败 。 每 个 叶 节 点 有 R 个 空 链接 ， 
因而 ， 如 在 15.2 节 介绍 的 那样 ， 需 要 区 分 叶 节 点 和 非 叶 节点 的 表示 。 我 们 在 第 16 章 考虑 这 样 
的 一 个 实现 ， 并 在 本 章 考 虑 另 一 种 实现 的 方法 。 无 论 哪 一 种 情况 ， 都 可 把 15.3 节 的 分 析 结 果 
进行 推广 ， 得 到 标准 多 路 线索 的 性 能 特征 。 

性 质 15.6 ”在 一 个 由 NN 个 随机 字 节 字符 囊 所 构造 的 标准 R- 又 线索 中 进行 搜索 或 插入 ,平均 
大 约 需 要 logrk N 次 比较 。 在 这 样 一 个 线索 中 的 链接 数 大 约 是 RN/In R。 在 这 样 一 个 线索 中 进行 
搜索 或 插入 所 需 的 字 节 比较 数目 不 超过 搜索 关键 字 的 字 节 数目 。 

这 些 结论 推广 了 性 质 15.3 和 性 质 15.4 中 的 结果 。 在 这 些 性 质 的 证 明 中 , 我 们 可 以 把 R 换 成 2。 
然而 ， 如 前 所 述 ， 在 这 些 量 的 精确 分 析 中 涉及 复杂 的 数学 知识 。 国 

性 质 15.6 给 出 的 结论 体现 了 算法 性 能 中 时 间 开 销 和 空间 开销 的 折 中 。 一 方面 ， 存 在 大 量 未 
使 用 的 空 链接 ， 只 由 接近 树 根 的 少数 节点 使 用 相对 较 多 的 链接 。 另 一 方面 ， 树 的 高 度 并 不 高 。 
例如 ， 假 设 我 们 取 R = 236， 有 AN 个 随机 64- 位 的 关键 字 。 由 性 质 15.6 可 知 ， 一 次 搜索 将 需要 
(lg 和 N)/8 次 字符 比较 (至 多 8 次 )， 并 使 用 少 于 47N 个 链接 。 如 果 空 间 开 销 不 受 限制 ， 这 种 算法 
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将 非常 有 效 。 我 们 可 以 采用 R = 65536， 这 样 需要 多 于 5900 个 链接 但 只 需 4 次 字符 比较 操作 。 

在 15.5 节 中 ， 我 们 仍 将 研究 标准 多 路 线索 。 在 本 节 其 余部 分 ， 我们 将 考虑 程序 15.7 构 建 的 
线索 的 另 一 种 表示 : 三 又 搜索 线索 (ternary search trie, TST)， 图 15-16 描 述 了 它 的 一 种 完整 形 
式 。 在 一 个 TST 中 ， 每 个 节点 有 一 个 字符 和 三 个 链接 ， 分别 对 应 关键 字 小 于 、 等 于 和 大 于 节 
点 字符 的 情况 。 使 用 这 种 三 叉 节 点 表示 等 价 于 把 线索 节点 实现 为 二 又 搜索 树 中 对 应 非 空 链接 
的 字符 关键 字 。 在 程序 15.7 的 标准 存在 线索 中 ， 线 索 节 点 表示 为 R+1 个 链接 ， 并 通过 每 个 非 空 
链接 的 关键 字 索 引 推导 出 其 关键 字 字 符 。 在 相应 的 存在 TST 中 ， 与 非 空 链接 对 应 的 所 有 字符 
显 式 地 出 现在 节点 中 ， 只 有 在 遍历 中 间 的 链接 时 才能 找到 对 应 关键 字 的 字符 。 





图 15-16 在 在 线索 的 结构 


注 : 这 些 图 显示 了 16 个 单词 (call me ishmael some years ago never mind how long precisely having little or no 
money) 的 存在 线索 的 三 种 表示 方式 。 上 图 是 26- 路 的 存在 线索 ， 中 图 是 去 掉 空 链 接 的 抽象 线索 ; 下 图 是 
TST 表 示 。26- 路 线索 链接 太 多 ,但 是 TST 是 一 种 抽象 线索 的 高 效 表示 方式 。 

上 面 的 两 个 图 假设 不 存在 关键 字 是 另 一 个 关键 字 的 前 级 。 例 如 ， 添 加 关键 字 not 将 导致 关键 字 no 技 失 。 
我 们 可 以 在 每 个 关键 字 的 末尾 增加 一 个 空 字 和 罕 来 解决 这 个 问题 ， 如 下 图 中 的 TST 所 描述 的 那样 。 
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存在 TST 的 搜索 算法 很 直观 ， 插 入 算法 有 点 复杂 ， 但 其 直接 对 应 存在 线索 中 的 插入 算法 ， 
故 也 不 难 理解 。 搜 索 时 ， 我 们 把 关键 字 的 第 一 个 字符 与 根 节 点 的 字符 相 比 较 ， 如 果 搜索 关键 
字 的 第 一 个 字符 小 于 根 节点 的 关键 字 ， 则 转 到 左 链接 ， 如 果 大 于 ， 则 转 到 右 链接 ， 如 果 等 于 ， 
则 转 到 中 间 的 链接 ， 并 移 到 关键 字 的 下 一 个 字符 。 在 每 种 情况 下 ， 递 归 调用 算法 。 如 果 遇 到 
一 个 空 链接 或 者 在 树 中 遇 到 NULLdigit 之 前 遇 到 搜索 关键 字 的 尾部 ， 则 以 搜索 失败 结束 ， 如 果 
我 们 遍历 一 个 其 字符 是 NULLdigit 的 节点 的 中 间 链 接 ， 则 以 搜索 命中 结束 。 要 插入 一 个 新 的 关 
键 字 ， 首 先进 行 搜索 ， 然 后 在 关键 字 尾 部 字符 上 添加 新 的 节点 ， 正 如 在 线索 中 所 作 的 那样 。 
程序 15.8 给 出 了 这 些 算法 的 实现 细节 。 图 15-17 给 出 了 与 图 15-15 中 的 线索 对 应 的 TST。 





15-17 存在 TST 


注 : 在 存在 TST 中 ， 每 个 节点 对 应 一 个 字 油 但 每 个 节点 只 有 三 个 子 节 点 ，、 而 不 是 26 个 节点 。 图 中 上 面 的 三 棵 
树 是 对 应 图 15-15 持 入 示例 的 RST， 其 中 关键 字 结 来 符 悬挂 在 每 个 关键 字 的 后 面 。 我 们 可 以 去 掉 “ 不 存在 关 
键 字 是 其 他 关键 字 的 前 级 ”这 个 限制 。 这 样 ， 我 们 可 以 把 关键 字 theory 插 入 其 中 (下 图 )。 


/15.8 存在 TST 的 搜索 和 插入 

这 个 代码 实现 了 如 程序 15.7 中 的 同一 个 抽象 线索 算法 ,但 是 每 个 节点 只 包含 一 位 数字 和 三 
个 链接 : 三 个 链接 分 别 代表 其 下 一 个 关键 字 位 小 于 、 等 于 或 大 于 搜索 关键 字 的 相应 位 的 情况 。 

typedef struct STnode* link; 

struct STnode { int d; link 1, m, r; }; 

static link head; 

void STinit() { head = NULL; } 

link NEW(int d) 
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{ link x = malloc(sizeof *x); 
x->d = d; x->1 = NULL; x->m = NULL; x->r = NULL; 
return x; 
} 
Item searchR(link h, Key v, int w) 
{ int i = digit(v, w); 
if (h == NULL) return NULLitenm; 
if (i == NULLdigit) return vy; 
if (i < h->d) return searchR(h->1, v, Ww); 
if (i == h->d) return searchR(h->m, v, wt+1); 
if (i > h->d) return searchR(h->r, Vv, W); 
} 
Item STsearch( Key v) 
{ return searchR(head, v, 0); } 
link insertR(link h, Item item, int w) 
{ Key v = key(item); 
int i = digit(v, w); 
if (h == NULL) h = NEW(i); 
if (i == NULLdigit) return h; 
if (i < h->d) h->1 = insertR(h~>1, v, Ww); 
if (i == h->d) h->m = insertR(h->m, v, w+1); 
if (i > h->d) h->r = insertR(h->r, Vv, Ww); 
return bh; 
} 
void STinsert (Key key) 
{ head = insertR (head, key, 0); } 


我 们 继续 研究 搜索 树 与 排序 算法 之 间 的 对 应 关系 ， 可 以 看 出 TST 与 三 路 基数 排序 的 对 应 关 
系 ， 就 像 BST 与 快速 排序 的 对 应 关系 ， 线 索 与 二 又 快速 排序 的 对 应 关系 ，M 路 线索 与 M 路 基数 
排序 的 对 应 关系 。 图 10-13 描 述 了 三 路 基数 排序 的 递归 调用 结构 ， 是 关键 字 集 的 一 个 TST。 线 
索 中 的 空 链 接 问 题 对 应 着 基数 排序 中 的 空 桶 问题 ， 三 路 分 支 为 解决 这 两 个 问题 提供 了 一 种 有 
效 的 方法 。 

我 们 可 以 通过 把 关键 字 存 储 在 相应 位 不 同 的 叶 节 点 中 ， 并 像 在 帕 氏 线索 中 那样 ， 删 除 内 
部 节点 之 间 的 单 向 分 支 ， 使 TST 在 空间 使 用 上 更 高 效 。 在 本 节 最 后 ， 我 们 分 析 基 于 前 者 变化 
的 一 种 实现 。 

性 质 15.7 在 一 个 完整 的 TST 中 进行 搜索 或 插入 所 需要 的 时 间 与 关键 字 的 长 度 成 正比 。 在 
一 个 TST 中 的 链接 数 至 多 是 所 有 关键 字 的 字母 总 数 的 3 倍 。 

在 最 坏 情况 下 , 对 应 于 一 个 不 平衡 的 满 X 又 节点 的 每 个 关键 字 的 字符 展开 就 像 一 个 单 链表 。 
这 种 最 坏 情 况 在 随机 树 中 出 现 的 可 能 性 极 小 。 更 典型 地 ， 我 们 期 望 在 第 一 层 (因为 根 节点 的 
行为 就 像 有 R 个 不 同 字 节 值 的 一 个 BST) 以 及 其 他 几 层 (如 果 存 在 有 公共 前 级 的 关键 字 并 且 前 
缀 后 的 字符 可 达 R 个 不 同 的 字 节 值 ) 进行 In R 次 或 更 少 次 的 字 节 比较 ， 对 于 大 多 数 的 字符 只 进 
行 几 次 字 节 比较 〈 因 为 大 多 数 线索 节点 由 于 非 空 链 搂 呈 现 稀疏 分 布 ) 。 搜 索 失 败 很 可 能 只 进行 
几 次 字 节 比较 ， 结 束 于 线索 中 较 高 层 的 空 链 接 上 。 搜 索 命中 对 于 每 个 搜索 关键 字 字 符 只 需 约 
一 次 字 节 的 比较 ， 因 为 大 多 数字 符 都 是 在 线索 的 底部 带 有 单 向 分 支 的 节点 中 。 

每 个 字符 的 实际 使 用 空间 一 般 少 于 三 个 链接 所 占用 空间 的 上 限 ， 因 为 关键 字 在 树 中 较 高 
层次 共享 布点 。 我 们 没有 做 精确 的 平均 情况 分 析 是 因为 在 实际 应 用 中 ，TST 是 使 用 的 最 广泛 ， 
其 中 关键 字 既 不 是 随机 的 ， 也 不 是 在 极端 的 最 坏 情 况 下 构造 出 来 的 。 图 
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使 用 TST 的 主要 优点 在 于 它 能 很 好 地 适用 于 实际 应 用 中 关键 字 不 规则 的 情况 。 有 两 种 主要 
的 效果 。 首 先 ， 实 际 应 用 中 的 关键 字 来 自 于 大 型 字 


符 集 ， 字 符 集中 特殊 字符 的 使 用 并 不 统一 ， 例 如 ， DT 7 
字符 串 的 特殊 集 大 概 只 使 用 可 能 字符 的 一 小 部 分 。 LDS---625-.D-73-1986 
而 TST， 可 以 使 用 128- 或 256- 字 符 的 编码 ， 而 不 用 Lop-428 M66-1991 
担心 128- 或 256- 路 分 支 节点 的 过 大 开销 ， 而 且 不 必 LITK__6015_p_63_1988 
确定 哪些 字符 集 是 相关 的 。 非 罗马 字母 表 的 字符 集 WR pos Ts 
可 能 包含 数 千 个 字符 ，TST 特 别 适合 于 包含 此 类 字 e875 

符 的 字符 串 关键 字 。 其 次 ， 实 际 应 用 中 的 关键 字 通 Ws0c— 2542—30 
常 具有 特定 的 结构 ， 其 结构 随 不 同 应 用 而 不 同 。 特 WPHYS. .39130 


别 是 在 关键 字 某 部 分 中 只 使 用 字符 ， 另 一 部 分 使 用 WROM- -5350----65- 5 
数字 ， 并 有 特殊 字符 作为 分 隔 符 的 应 用 ， 关 键 字 的 W100 
结构 尤为 特殊 ( 见 练习 15.71)。 例 如 ， 图 15-18 给 出 
了 在 线 图 书馆 数据 库 的 索 书号 的 列表 。 对 于 这 样 的 。 ”图 15-18 字符 申 ( 图 书馆 索 书 号 ) 示例 
关键 字 ， 茶 些 线索 节点 可 能 表示 为 TST 中 的 一 元 节 ” 注 ; 这 些 来 自在 线 图 书馆 数据 库 中 的 关键 字 说 明 
点 〈 对 于 关键 字 中 包含 分 隔 符 的 地 方 ) ， 某 些 可 能 了 实际 应 用 中 字符 串 关键 字 有 多 种 结构 。 某 
表示 为 10 节 点 的 BST (对 于 关键 字 中 包含 数字 的 地 芭 字 符 审 过 合用 随机 字符 模型 ， 荣 些 字符 韶 
方 ) ， 其 他 一 些 可 能 表示 为 26 节 点 的 BST (对 于 半生 证 由 生 和 生 人 生生 人 
键 字 中 包含 字符 的 地 方 )。 这 种 结构 自动 生成 ， 不 
需要 对 关键 字 进行 特别 分 析 。 

基于 TST 的 搜索 算法 与 其 他 算法 相 比 ， 另 一 个 实际 优点 是 搜索 失败 发 生 时 也 非常 高 效 ， 即 
使 关键 字 很 长 也 是 如 此 。 通 常 只 需要 几 次 字 节 的 比较 (和 寻找 几 个 指针 ) 就 可 以 完成 一 次 搜 
索 失 败 。 就 像 在 15.3 节 中 讨论 的 那样 ， 在 一 个 N 个 关键 字 的 散 列表 中 进行 一 次 搜索 失败 需要 的 
时 间 与 关键 字 的 长 度 成 正比 (来 计算 散 列 函数 )， 且 在 搜索 树 中 至 少 需要 lg N 位 比较 。 即 使 是 
帕 氏 线索 ， 要 进行 一 次 随机 搜索 失败 也 需要 lg N 位 比较 。 

表 15-2 给 出 了 实验 数据 以 支持 前 面 两 段 中 的 结论 。 


表 15-2 字符 串 关 键 字 搜索 的 实验 研究 


对 像 图 15-18 中 图 书 索 书号 这 样 的 字符 串 关键 字 的 符号 表 进 行 构造 和 搜索 的 相对 时 间 证 实 了 TST 对 于 字符 串 的 搜 
索 失 败 是 最 快 的 ， 主 要 是 因为 搜索 并 不 需要 检查 关键 字 中 的 所 有 字符 ,虽然 构造 时 间 稍 微 有 些 品 贵 。 











构造 搜索 失败 
N 

B H T T* B H T T* 
1250 4 4 5 5 2 2 2 1 
2500 8 7 10 9 5 5 3 2 

5000 19 16 21 20 10 8 6 
12500 48 48 54 97 29 27 15 14 
25000 118 99 188 156 67 59 36 30 
50000 230 191 333 255 137 113 70 65 

其 中 : 


B 标准 BST (程序 12.7) 

H 采用 链 地 址 法 的 散 列 函数 〔M = N/5) (程序 14.3) 

T TST (程序 15.8) 

T* 在 根 节点 有 民 路 分 支 的 TST (程序 15.10 和 程序 15.11) 
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TST 吸 引 人 的 第 三 个 原因 是 它 支 持 比 符号 表 操 作 更 广泛 的 操作 。 例 如 ， 程 序 15.9 给 出 了 一 
个 程序 ， 它 允许 搜索 关键 字 中 包含 未 确定 的 特殊 符号 ， 并 且 输 出 数据 结构 中 与 搜索 关键 字 在 
某 些 确定 位 匹配 的 所 有 关键 字 。 图 15-19 给 出 了 一 个 例子 。 显 然 ， 对 程序 稍 加 修改 ， 就 能 使 这 
个 程序 像 我 们 在 排序 操作 中 所 做 的 那样 ， 访问 所 有 匹配 的 关键 字 ( 见 练习 15. 57)。 


: ”程序 15.9 TST 中 部 分 还 配 搜索 oy 

明智 地 采用 多 个 递归 调用 ， 可 以 在 TST 结 6 构 中 实现 部 分 匹配 的 搜索 。 如 程序 所 示 ， 我 们 搜 
索 输 出 某 些 位 不 确定 (不定 的 位 用 星 号 标 出 ) 的 字符 串 的 所 有 部 分 匹配 结果 。 这 里 ， 没 有 实 
现 搜索 操作 的 ADT 函 数 或 者 使 用 抽象 数据 项 ， 而 是 使 用 C 语 言 处 理 基本 语句 。 


char Word [maxW] ; 
void matchR(iink h, char *v, int i) 





{ 
if (h == Z) return; 
if ((*v == 3\0’) && (h->d == ’\0’)) 
{ word[i] = h->d; printf("%s ", word); } 
if ((*v == ?*’) || (x*v == h->d)) 
{ word[i] = h->d; matchR(h->m, v+1, i+1); } 
if ((*v == ?*’) || (*v < h->d)) 
matchR(h->1, v, i); 
if ((*v == ?*’) 1| (*v > h->d)) 
matchR(h->r, v, i); 
} 


void STmatch(char *v) 
{ matchR(head, v, 0); } 





图 15-19 基于 TST 的 部 分 匹配 搜索 


注 : 要 找 出 TST 中 与 模式 i* 匹 配 的 所 有 关键 字 (上 图 ) ,我 们 在 BST 中 搜索 第 一 个 字符 为 i 的 元 素 。 在 这 个 例子 中 ， 
我 们 经 过 两 个 单 向 分 支 的 比较 之 后 找到 is (与 模式 匹配 的 惟一 关键 字 )。 对 于 限制 更 少 的 模式 *o* (下 图 )， 
我 们 遍历 BST 中 的 所 有 节 志 来 搜索 第 一 个 字符 ， 对 第 二 个 字符 只 遍历 那些 为 0 的 节点 ， 最 终 ， 找 到 关键 宁 
for 和 now 。 

其 他 类 似 的 任务 用 BST 同 样 易 于 处 理 。 例 如 ， 我 们 可 以 访问 与 搜索 关键 字 最 多 只 有 一 位 
不 同 的 所 有 关键 字 ( 见 练习 15.58)。 这 类 操作 开销 较 大 ， 或 者 对 其 他 符号 表 的 实现 很 重要 。 
在 本 书 第 五 部 分 ， 我 们 将 详细 介绍 字符 串 中 不 完全 匹配 的 类 似 问 题 。 

帕 氏 线索 也 具有 类 似 的 优点 。TST 比 帕 氏 线索 最 大 的 好 处 在 于 它 访 问 的 是 关键 字 的 字 节 而 
不 是 关键 字 的 位 。 原 因 之 一 是 很 多 机 器 提供 这 种 字 节 操作 ， 而 且 C 语 言 提供 了 对 字符 串 中 字 节 
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的 直接 访问 。 另 一 个 原因 是 在 某 些 应 用 中 ， 字 节操 作 直 接 反映 了 数据 结构 本 身 的 字 节 定位 ， 
我 们 以 上 述 部 分 匹配 的 搜索 为 例 〈 尽 管 我 们 在 第 18 章 中 会 介绍 一 种 采用 位 访问 的 巧妙 算法 ， 
但 位 访问 可 使 部 分 匹配 搜索 的 运行 速度 更 快 ) 。 

要 去 掉 TST 中 的 单 分 支 ， 我 们 注意 到 大 多 数 单 分 支出 现在 关键 字 的 末尾 ， 如 果 我 们 改 为 一 
个 标准 的 多 路 线索 实现 ， 就 不 会 出 现 单 分 支 的 情况 ， 在 多 路 线索 中 ， 我 们 把 记录 保存 在 叶 节 
点 中 ， 这 些 叶 节点 置 于 线索 的 最 高 层 ， 与 关键 字 区 分 开 。 也 可 以 采用 类 似 帕 氏 线索 中 保存 字 
节 索 引 的 做 法 ( 见 练 习 15.64)， 但 为 简单 起 见 ， 我 们 不 予 考 虑 。 多 路 分 支 和 TST 表 示 的 结合 在 
很 多 应 用 中 是 相当 有 效 的 方法 ， 而 对 关键 字 很 长 一 段 都 匹配 的 情况 ， 用 类 似 帕 氏 线索 去 除 单 
分 支 的 方法 更 能 提高 算法 的 性 能 〈 见 练习 15.71) 。 

基于 TST 的 搜索 算法 的 另 一 种 改进 是 在 树 根 直 接 使 用 大 型 多 路 节点 。 实 现 的 最 简单 的 方式 
保存 R 个 TST 的 一 个 表 : 每 个 TST 对 应 于 关键 字 中 第 一 位 的 每 种 可 能 值 。 若 R 不 大 ， 我 们 还 可 
以 使 用 关键 字 的 前 两 位 的 可 能 取 值 (此 时 表 长 为 R*?)。 这 种 方法 达到 高 效 的 前 提 是 ， 关 键 字 的 
最 高 位 分 布 尽 可 能 均匀 。 我 们 把 混合 搜索 算法 类 比 人 们 在 电话 本 中 搜索 名 字 的 过 程 。 第 一 步 
是 做 一 个 多 种 选择 (如 以 “A” 开 始 的 )， 之 后 可 能 是 两 种 选择 ( 它 在 “Andrews” 之 前 , 但 
在 “Aitken” 之 后 )， 然 后 是 一 连 串 的 字符 匹配 (“‘“Algonquin,” 不 , “Algorithms’' 不 在 表 中 ， 
因为 没有 关键 字 以 “Algor” 开 头 ! ”)。 

程序 15.10 和 程序 15.11 采 用 一 定 折 中 实现 了 基于 TST 的 符号 表 的 search 和 insert 操 作 ， 根 节 
点 使 用 R 路 分 支 , 并 且 把 关键 字 保 存在 叶 节 点 中 (因而, 一旦 关键 字 不 同 , 不 会 出 现 单 路 分 支 )。 
这 几 段 代码 是 对 字符 串 关键 字 搜 索 比较 快 的 算法 。TST 这 种 数据 结构 同样 支持 其 他 一 些 操作 。 


程序 15.10 ”符号 家 ADT 的 TST 插 入 


这 个 使 用 TST 的 insert 实 现 把 记录 保存 在 叶 节点 中 的 程序 ， 对 程序 15.3 做 了 推广 。 如 果 搜 
索 结 束 在 叶 节 点 上 ， 我 们 可 以 建立 把 关键 字 与 搜索 关键 字 区 别 开 的 所 需 的 内 部 节点 。 我 们 也 
改进 了 程序 15.8， 在 根 节点 上 加 上 了 R- 路 分 支 ， 而 不 是 使 用 单个 指针 head， 我 们 使 用 R 个 链接 
的 数组 heads ， 用 关键 字 的 第 一 个 数字 作为 索引 。 初 始 时 ， 我 们 设置 所 有 R 个 头 链接 为 NULL 。 


#define internal(A) ((A->d) != NULLdigit) 
link NEWx(link h, int d) 
{ link x = malloc(sizeof *x); 
x->item = NULLitem; x->d = d; 
XxX~>1 = NULL; x->m = h; x->r = NULL; 
return XxX; 
} 
link split(link p, link q, int w) 
{ int pd = digit(p->item, Ww), 
qd = digit(g->item, W); 
link t = NEWCNULLitem，qd) 
if (pd < qd) { t->m = q; t->1 = NEWx(p, pd); } 
if (pd == gd) { t->m = split(p, q, w+1); } 
if (pd > qd) { t->m = qi t->r = NEWx(p, pd); } 
return t; 
} 
link insertR(link h, Item item, int w) 
{ Key v = key(item); 
int i = digit(v, W); 
if (h == NULL) 
return NEWx(NEW(item, NULLdigit), i); 
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if (!internal(h)) 
return split(NEW(item, NULLdigit), h, w); 
if (i < h->d) h->1 = insertR(h->1, v, Ww); 
if (i == h->d) h->m = insertR(h~>m, v, w+1); 
if (i > h->d) h->r = insertR(h->r, v, W); 
return h; 
} 
void STinsert (Key key) 
{ int i = digit(key, 0); 
heads[i] = insertR(heads[i], key, 1); 
} 


程序 15;11 符号 表 ADT 的 TST 搜 索 


这 个 TST 《由 程序 15.10 构 建 ) 的 search 实 现 就 像 直接 多 路 线索 搜索 __ 一 样 ， 但 每 个 节点 只 4 使 
用 三 个 而 不 是 R 个 链接 。 我 们 使 用 关键 字 位 来 确定 树 中 的 遍历 路 径 ， 或 者 在 一 个 空 链接 处 结束 
(搜索 失败 )， 或 者 在 叶 节 点 处 结束 ， 如 果 叶 节点 处 关键 字 等 于 搜索 关键 字 ， 则 搜索 命中 ， 否 
则 ， 搜 索 失 败 。 
Item searchR (link h, Key v, int w) 
{ int i = digit(v, w); 
if (h == NULL) return NULLitem; 
if {internal (h)) 
{ 
if (i < h->d) return searchR(h~>1, v, Ww); 
if (i == h->d) return searchR(h->m, v, w+1); 
if (i > h->d) return searchR(h~>r, v, Ww); 
} 
if eq(v, key(h->item)) return h->item; 
return NULLitem; 
} 
Item STsearch(Key v) 
{ return searchR (heads [digit(v, 0)], v, 1); } 


在 一 个 可 以 增长 到 很 大 的 符号 表 中 ， 我 们 可 以 使 分 支 因 子 等 于 表 长 。 在 第 16 章 中 ， 我 们 
将 讨论 增长 多 路 线索 的 系统 方法 ， 以 便 能 够 把 多 路 基数 搜索 方法 用 于 任意 大 小 的 文件 。 

性 质 15.8 ”在 N 个 随机 字符 序列 的 关键 字 构 成 的 TST 中 (元 素 存储 在 叶 节 点 中 ， 且 底部 没 
有 单 路 分 支 )， 其 叶 节 点 上 的 搜索 或 插入 和 根 节 点 上 R' 路 分 支 遍 历 的 操作 大 约 需要 InN 一 tinR 
次 字 节 访问 。 且 根 节 点 所 需要 的 链接 数目 为 尺 加 上 一 个 小 常数 N。 

这 些 粗 略 的 估计 可 以 直接 由 性 质 15.6 推 出 。 就 时 间 开 销 而 言 ， 对 R 个 关键 字 字 符 的 可 能 值 ， 
我 们 假设 除了 某 常数 个 节点 外 所 有 搜索 路 径 上 的 节点 都 等 价 于 随机 BST， 因 此 ， 我 们 可 以 将 
BST 的 时 间 开销 乘 以 InR。 对 于 空间 开销 ， 我 们 假设 在 树 的 上 面 几 层 节 点 均 被 关键 字 字 符 的 尺 
个 可 能 值 填 满 ， 而 在 底部 几 层 节点 中 字符 值 的 数目 只 是 某 个 常数 。 图 

例如 ， 如 果 有 10 亿 个 随机 字符 串 关键 字 ， 且 R = 256， 我 们 在 顶端 使 用 一 个 大 小 为 R? = 
65536 的 表 ， 那 么 ， 一 次 典型 的 搜索 需要 大 约 In 10 一 2 In 256 = 20.7 一 11.1 = 9.6 次 字 节 的 比较 。 
这 种 方法 将 搜索 开销 减少 二 分 之 一 。 如 果 使 用 真正 随机 的 关键 字 ， 则 采用 直接 比较 关键 字 最 
高 位 字符 以 及 一 个 存在 表 就 可 以 达到 上 述 性 能 ， 这 在 14.6 节 已 经 讨论 过 。 采 用 TST， 即 使 关键 
字 的 随机 性 不 好 也 能 达到 上 述 性 能 。 
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对 于 随机 关键 字 ， 我 们 需要 对 根 节 点 无 多 路 分 支 的 TST 与 标准 BST 进 行 比较 。 性 质 15.8 立 
述 TST 搜 索 将 需要 大 约 In N 次 字 节 比较 ， 而 标准 BST 需 要 大 约 In N 次 关键 字 比 较 。 在 BST 顶 部 ， 
关键 字 比较 可 用 一 次 字 节 比较 完成 ， 但 在 树 的 底部 则 需要 多 次 字 节 比较 才能 完成 关键 字 比 较 。 
两 者 性 能 的 差异 并 不 太 大 。TST 优 于 BST 之 处 在 于 它 对 搜索 失败 运行 得 更 快 ， 适 合 树 根 节 点 的 
多 路 分 支 ，( 最 重要 的 是 ) 适合 字符 串 关键 字 并 不 随机 的 情况 ， 因 此 ，TST 中 一 次 搜索 的 开销 
不 会 大 于 一 个 关键 字 的 长 度 。 

树 根 节点 R 路 分 支 的 算法 并 不 是 对 任何 应 用 都 有 效 。 例 如 图 15-18 提 到 的 在 线 图 书馆 索 书 
号 的 数据 库 ， 那 里 所 有 关键 字 都 是 以 L 或 W 开 头 的 。 还 有 一 些 应 用 需要 更 大 的 根 节 点 分 支 。 例 
如 ， 前 面 提 到 的 随机 整数 关键 字 的 例子 ， 这 时 要 用 尽 可 能 大 的 表 。 我 们 对 不 同 应 用 要 做 相应 
的 修改 以 达到 最 高 性 能 ， 但 使 用 TST 使 得 我 们 无 需 多 考虑 不 同 的 应 用 需求 就 能 达到 好 的 性 能 。 

对 记录 保存 在 树叶 中 的 线索 或 TST， 最 突出 的 特性 应 该 是 性 能 与 关键 字 长 度 无 关 。 这 样 我 
们 可 以 将 其 用 于 任意 长 的 关键 字 。 在 15.5 节 中 ， 我 们 将 讨论 这 类 应 用 的 一 种 非常 有 效 的 实现 。 
练习 
15.48 ”使 用 27- 路 分 支 ， 画 出 把 now is the time for all good people to come the aid of their party 
插入 到 初始 为 空 的 线索 后 的 存在 线索 。 

15.49 画 出 把 now is the time for all good people to come the aid of their party 插入 到 初始 为 空 
的 TST 后 的 存在 TST。 
15.50 ”使 用 2- 位 字 节 ， 画 出 把 带 有 关键 字 01010011 00000111 00100001 01010001 11101100 
00100001 10010101 01001010 的 数据 项 按照 此 序 插入 到 初始 为 空 的 线索 中 的 4- 路 线索 。 
15.51 使 用 2- 位 字 节 ， 画 出 把 带 有 关键 字 01010011 00000111 00100001 01010001 11101100 
00100001 10010101 01001010 的 数据 项 按照 此 序 插入 到 初始 为 空 的 TST 中 的 结果 。 
15.52 使 用 4- 位 字 节 ， 画 出 把 带 有 关键 字 01010011 00000111 00100001 01010001 11101100 
00100001 10010101 01001010 的 数据 项 按照 此 序 播 人 到 初始 为 空 的 TST 中 的 结果 。 
215.53 画 出 把 图 15-18 中 的 图 书馆 索 书 号 关键 字 播 入 到 初始 为 空 的 TST 中 的 结果 。 
215.54 修改 多 路 线索 的 搜索 和 插入 实现 (程序 15.7) ， 使 其 能 够 用 于 关键 字 为 ( 定 长 ) w 字 节 
的 字 (因而 不 需要 关键 字 的 结束 符 )。 
015.55 修改 TST 的 搜索 和 播 入 实现 (程序 15.8) ， 使 其 能 够 用 于 关键 字 为 ( 定 长 ) w 字 节 的 关 
键 字 (因而 不 需要 关键 字 的 结束 符 )。 
15.56 ”进行 实验 研究 ， 比 较 8- 路 线索 、4- 路 线索 和 二 又 线索 的 时 间 和 空间 需求 ，8- 路 线索 使 
用 3 位 字 节 由 随机 整数 构建 而 得 ，4- 路 线索 使 用 2 位 字 节 由 随机 整数 构建 而 得 ， 二 又 线索 使 用 
同一 组 关键 字 构 建 而 得 ， 其 中 N = 10;，10$，105 和 10% ( 见 练习 15.14) 。 
15.57 ”修改 程序 15.9， 使 其 访问 与 搜索 关键 字 匹 配 的 所 有 节点 的 方式 与 排序 操作 一 样 。 
015.58 编写 一 个 函数 ， 打 印 TST 中 与 搜索 关键 字 至 多 有 k 个 不 同 的 所 有 关键 字 ，k 是 给 定 的 





*15.59 给 出 含有 N 个 不 同 w 位 的 关键 字 的 R- 路 线索 的 最 坏 情 况 下 内 部 路 径 长 度 的 完整 刻画 。 
。15.60 ”实现 基于 多 路 线索 的 符号 表 的 sort、delete、select 和 join 操作 。 

。15.61 实现 基于 TST 的 符号 表 的 sort、delete、select 和 join 操作 。 

>15.62 编写 一 个 程序 ， 打 印 出 R- 路 线索 中 与 给 定 搜索 关键 字 的 前 t 个 字 节 相同 的 所 有 关键 字 。 
>15.63 ”修改 多 路 线索 中 的 搜索 和 插入 实现 (程序 15.7)， 像 在 帕 氏 线索 中 所 做 的 那样 消除 单 


“15.64 修改 TST 中 的 搜索 和 插入 实现 〈 程 序 15.8) ， 像 在 帕 氏 线索 中 所 做 的 那样 消除 单 向 


430  ” 莫 四 部 分 搜 次 





分 支 。 . 

15.65 编写 一 个 使 BST 平 衡 的 程序 ， 其 中 BST 表 示 TST 的 内 部 节点 ( 重 排 这 些 节 点 以 使 它们 
的 所 有 外 部 节点 位 于 两 层 中 的 一 层 上 )。 

15.66 ”编写 TST 的 一 种 insert 操 作 版 本 ， 它 可 以 维持 所 有 内 部 节点 的 平衡 树 表示 〈 见 练习 
15.65 )。 

“15.67 给 出 含有 N 个 不 同 w 位 的 关键 字 的 TST 的 最 坏 情 况 下 内 部 路 径 长 度 的 完整 刻画 。 

15.68 编写 一 个 生成 随机 80 字 节 字 符 串 关键 字 的 程序 ( 见 练习 10.19)。 使 用 这 个 关键 字 生 成 
器 来 构建 一 个 具有 NN 个 随机 关键 字 的 256- 路 的 线索 ， 其 中 N = 10;，10+，105 和 105。 首 先进 行 搜 
索 ， 然 后 在 搜索 失败 时 进行 插入 。 进 行 实验 ， 打 印 出 每 个 线索 中 的 节点 总 数 以 及 构建 每 个 线 
索 所 需 的 总 时 间 。 

15.69 对 于 TST， 回 答 练 习 15.68 中 的 问题 。 并 与 针对 线索 的 结果 进行 性 能 比较 。 

15.70 ”编写 一 个 生成 混 洗 随机 80 字 节 序 列 的 关键 字 生 成 器 ( 见 练 习 10.21)。 使 用 这 个 关键 字 
生成 器 来 构建 一 个 具有 N 个 随机 关键 字 的 256 路 的 线索 ， 其 中 N = 103，104，105 和 105。 首 先进 
行 搜索 ， 然 后 在 搜索 失败 时 进行 播 入 。 比 较 访 程序 与 练习 15.68 中 对 应 的 随机 关键 字 的 程序 的 
性 能 。 

?15.71 编写 一 个 生成 随机 30- 字 节 字 符 串 的 程序 ,其 中 字符 串 由 三 个 域 组 成 : 一 个 4 字 节 的 域 ， 
取 自 给 定 的 10 个 字符 串 中 的 一 个 ， 一 个 10 字 节 的 域 ， 取 自给 定 的 50 个 字符 串 中 的 一 个 ， 一 个 1 
字 节 的 域 ， 取 自 两 个 给 定 值 之 一 ， 最 后 一 个 是 15 字 节 的 一 个 域 ， 含有 随机 左 对 齐 字母 申 ， 长 
度 等 概率 取 自 4 至 15 之 闻 〈 见 练习 10.23) 。 使 用 这 个 关键 字 生 成 器 来 构建 一 个 具有 N 个 随机 关 
键 字 的 256- 路 的 线索 ， 其 中 N = 10;，104，105 和 105。 首 先进 行 搜索 ， 然 后 在 搜索 失败 时 进行 
插入 。 进 行 实验 ， 打 印 出 每 个 线索 中 的 节点 总 数 以 及 构建 每 个 线索 所 需 的 总 时 间 。 比 较 该 程 
序 与 练习 15.68 中 对 应 的 随机 关键 字 的 程序 的 性 能 。 

15.72 对 于 TST， 回 答 练习 15.71 中 的 问题 。 并 与 针对 线索 的 结果 进行 性 能 比较 。 

15.73 使 用 多 路 数字 搜索 树 ， 开 发 一 个 字符 串 关键 字 的 search 和 insert 实 现 。 

>15.74 画 出 把 带 有 关键 字 now is the time for all good people to come the aid of their party 的 数 
据 项 插入 到 初始 为 空 的 DST 后 的 27- 路 DST。 

。15.75 开发 一 个 多 路 线索 搜索 和 插入 的 实现 ， 其 中 使 用 链表 来 表示 线索 中 的 节点 ( 像 在 TST 
中 使 用 BST 表 示 节 点 一 样 ) 。 进 行 实验 来 确定 使 用 有 序 表 还 是 无 序 表 更 高 效 。 并 把 你 的 实现 与 
基于 TST 的 实现 进行 比较 。 


15.5 文本 字符 串 索 引 算法 


在 12.7 节 中 我 们 讨论 了 建立 字符 囊 索 引 (string index) 的 方法 ， 在 一 大 段 文 本 中 ， 我 们 采 
用 带 字符 串 指针 的 二 又 搜索 树 来 判定 某 个 给 定 关键 字 是 否 在 其 中 。 在 本 节 中 ， 我 们 从 同一 角 
度 考 察 使 用 多 路 线索 的 更 复杂 的 算法 。 我 们 把 文本 中 的 每 个 位 置 看 作 字符 串 关键 字 的 开始 位 
置 ， 扫 描 该 文本 直到 文本 的 末尾 ， 同 时 使 用 字符 串 指针 构建 一 个 带 有 这 些 关键 字 的 符号 表 。 
关键 字 互 不 相同 (可 以 是 不 同 长 度 )， 且 大 多 数 关键 字 很 长 。 搜 索 的 目的 是 确定 一 个 给 定 的 关 
键 字 是 否 是 索引 中 关键 字 的 一 个 前 缀 ， 这 等 价 于 确定 搜索 关键 字 是 否 出 现在 文本 字符 串 中 。 

由 指向 文本 中 字符 串 的 字符 串 指针 确定 的 关键 字 所 构成 的 搜索 树 被 称 为 后 组 树 (suffix 
tee) 。 我 们 可 以 使 用 允许 变 长 的 关键 字 的 任何 算法 。 基 于 线索 的 方法 就 特别 合适 ， 因 为 ( 除 
了 在 关键 字 末 尾 进行 单 分 支 的 线索 方法 ) 它们 的 运行 时 间 并 不 依赖 于 关键 字 的 长 度 ， 而 是 依 
赖 于 用 于 区 分 关键 字 的 位 数 。 这 一 特性 与 运行 时 间 正 比 于 关键 字 长 度 的 算法 ， 如 散 列 算法 ， 
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形成 鲜明 的 对 比 。 

图 15-20 给 出 了 用 BST、 帕 氏 线索 和 ( 带 有 时 节点 的 ) TST 构 建 字符 串 索引 的 例子 。 这 些 
索引 只 使 用 开始 于 字 边 界 的 字符 串 做 关键 宇 ， 而 从 字符 边界 开始 的 索引 会 使 索引 更 复杂 ， 并 
且 使 用 的 空间 显著 增加 。 
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图 15-20 文本 字符 串 索 引 示例 
注 : 这 些 图 显示 了 使 用 BST (上 图 )， 帕 氏 线 索 (中 图 ) 和 TST (下 图 ) 等 方法 ， 由 文本 call me ishmael some 
years ago never mind how long precisely… 所 构建 的 文本 字符 串 索 引 。 带 有 指向 字符 串 指 针 的 节点 由 指针 所 
引用 点 处 的 前 4 个 字符 描述 。 

严格 来 讲 ， 即 使 一 个 随机 字符 串 文 本 也 不 会 引起 相应 索引 中 的 关键 字 集 是 随机 的 (因为 
关键 字 不 是 独立 的 ) 。 然 而 ， 在 实际 索引 应 用 中 我 们 很 少 使 用 随机 文本 ， 且 分 析 方 法 的 不 同 也 
不 会 影响 我 们 使 用 基于 基数 方法 的 快速 索引 实现 。 我 们 并 不 对 构建 字符 串 索 引 的 每 个 算法 都 
进行 详细 的 性 能 特征 的 讨论 ， 因 为 我 们 前 面 所 讨论 的 关于 字符 串 关键 字 的 符号 表 的 某 些 折 中 
方法 对 于 字符 串 索 引 问题 也 适用 。 

对 于 一 个 典型 的 文本 ， 因 为 标准 BST 易 于 实现 ， 所 以 成 为 我 们 的 首选 ( 见 程序 12.10)， 而 
且 在 典型 应 用 中 ， 可 以 提供 好 的 性 能 。 关 键 字 的 相互 依赖 (特别 是 对 每 个 字符 位 置 建立 一 个 索 
引 时 ) 导致 BST 应 用 在 大 型 文本 时 出 现 最 坏 情 况 ， 尽 管 非 平衡 BST 只 有 在 构造 很 差 时 才 出 现 。 

帕 氏 线索 最 初 就 是 为 字符 串 索 引 的 应 用 而 设计 的 。 要 使 用 程序 15.5 和 程序 15.4， 我 们 只 需 
要 编写 一 个 位 操作 的 实现 ， 给 定 一 个 字符 串 指 针 和 一 个 整数 :， 返回 字符 串 中 的 第 位 〈 见 练习 
15.81)。 在 实际 中 ， 实 现 文本 字符 串 索 引 的 帕 氏 线索 的 高 度 为 对 数 级 的 。 此 外 ， 一 个 帕 氏 线 
索 将 为 搜索 失败 提供 快速 搜索 实现 ， 因 为 我 们 并 不 需要 检查 关键 字 的 所 有 字 节 。 

TST 具 有 帕 氏 线索 的 一 些 优 点 ， 易 于 实现 ， 它 利用 内 置 的 字 节 访问 操作 ， 这 在 现代 机 器 中 
非常 适合 。 它 们 还 能 适合 于 简单 实现 ， 如 程序 15.9， 它 们 所 能 解决 的 搜索 问题 要 比 完 全 匹配 
一 个 关键 字 要 复杂 的 多 。 为 了 使 用 TST 来 构建 一 个 字符 串 索 引 ， 我 们 需要 在 数据 结构 中 去 掉 
处 理 关键 字 末尾 的 那 段 代 码 ， 因 为 我 们 已 得 到 保证 ， 不 存在 字符 串 是 另 一 个 字符 串 的 前 缀 ， 
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因而 ， 我 们 从 不 会 把 字符 串 比 较 的 操作 延续 到 末尾 。 这 一 修改 包括 改变 数据 项 类 型 接口 中 的 
eq 的 定义 ， 使 得 如 果 一 个 字符 串 是 另 一 个 字符 串 的 前 缓 ， 就 认为 这 两 个 字符 串 相 等 ， 就 像 在 
12.7 节 所 做 的 那样 。 因 为 我 们 要 从 文本 字符 串 的 某 个 位 置 开 始 ， 比 较 一 个 〈 短 的 ) 搜索 关键 
字 与 一 个 (长 的 ) 文本 字符 串 。 第 三 个 改变 是 在 每 个 节点 中 记录 字符 串 的 位 置 而 不 是 字符 非 
常 便利 ， 因 而 ， 树 中 的 每 个 节点 指向 文本 字符 串 中 的 一 个 位 置 (文本 中 的 这 个 位 置 是 从 根 节 
点 到 该 节点 的 相等 分 支 所 定义 的 字符 串 在 文本 中 首次 出 现 的 位 置 )。 实 现 上 述 修改 就 可 以 灵活 
高 效 地 实现 文本 字符 串 索 引 ( 见 练 习 15.80) 

除了 上 面 讨论 的 优点 外 ， 我 们 考虑 在 典型 文本 索引 应 用 中 使 用 BST、 帕 氏 线索 或 TST 时 的 
一 个 重要 的 事实 就 是 : 通常 文本 自身 是 固定 的 ， 因 而 ， 我 们 并 不 需要 支持 动态 的 插入 操作 。 
也 就 是 说 ， 我 们 一 般 只 构造 一 次 索引 ， 然 后 ， 使 用 它 进行 大 量 搜索 ， 而 不 改变 索引 。 因 此 ， 
我 们 可 能 根本 不 需要 像 BST、 帕 氏 线 索 或 T ST 这样 的 动态 数据 结构 ， 适 合 于 处 理 这 种 情况 的 基 
本 算 革 是 带 有 字符 串 指针 的 二 又 搜索 《 见 12.4 节 )。 索 引 是 字符 囊 指 针 的 一 个 集合 索引 构造 
过 程 是 对 字符 串 指针 排序 的 过 程 。 与 动态 数据 结 构 相 比 使 用 二 又 搜 索 的 主要 优点 在 于 节省 空 
间 。 为 了 使 用 二 又 搜 索 在 NN 个 位 置 索 引 一 个 文本 字符 串 ， 我 们 只 需要 N 个 字符 串 指 针 ， 对 比 之 
下 ， 为 了 使 用 基于 树 的 方法 在 N 个 位 置 索引 一 个 文本 字符 串 ， 我 们 至 少 需要 3N 个 指针 (一 
指向 文本 的 字符 串 指针 和 两 个 链接 ) 。 文 本 索引 一 般 都 很 大 ， 因 而 ， 二 叉 搜 索 可 能 更 好 一 些 ， 
因为 它 能 提供 可 保证 的 对 数 搜索 时 间 ， 但 只 使 用 基于 树 方法 所 用 空间 的 1/3。 然 而 ， 如 果 有 足 
够 的 内 存 空间 ， 对 于 很 多 的 应 用 ，TST 会 导致 更 快 的 搜索 。 因 为 它 在 关键 字 上 单 向 移动 而 不 
折 回 ,而 二 又 搜索 却 做 不 到 。 

如 果 我 们 有 一 个 大 型 的 文本 ， 但 计划 做 少量 的 搜索 ， 那 么 ， 就 不 可 能 构建 一 个 完整 的 索 

。 在 第 五 部 分 ， 我 们 将 考虑 字符 串 搜 索 问 题 。 即 快速 判断 一 段 文 本 中 是 否 含有 给 定 关 键 字 

且 无 需 预 处 理 。 我 们 还 将 考虑 其 他 字符 串 搜 索 问 题 ， 它 们 介 于 无 需 预 处 理 和 构建 大 型 文本 的 
完整 索引 这 两 个 极端 之 间 。 
练习 

>15.76 画 出 由 单词 now is the time for all good people to come the aid of their party 所 构建 的 文 
本 字符 串 索 引 所 得 26- 路 DST 的 结果 。 

>15.77 画 出 由 单词 now is the time for all good people to come the aid of their party 所 构建 的 文 
本 字符 串 索 引 所 得 26- 路 线索 的 结果 。 

15.78 画 出 由 单词 now is the time for all good people to come the aid of their party 所 构建 的 文 
本 字符 串 索 引 所 得 TST 的 结果 ， 样 式 同 图 15-20。 

>15.79 画 出 由 单词 now is the time for all good people to come the aid of their party 所 构建 的 
文本 字符 串 索 引 所 得 TST， 要 求 使 用 课本 中 描述 的 实现 ， 其 中 TST 中 的 每 个 节点 包含 字符 串 

旨 针 。 

015.80 修改 程序 13.10 和 程序 13.11 中 的 TST 的 搜索 和 播 和 实现， 使 其 能 够 提供 基于 TST 的 字 
符 串 索引 。 

515.81 实现 一 个 接口 ， 人 允许 帕 氏 线索 像 字 符 串 那样 来 处 理 C 语 言 中 的 字符 串 关 键 字 (也 就 是 
说 ， 字 符 串 数组 )。 

o15.82 画 出 由 单词 now is the time for all good people to come the aid of their party 所 构建 的 文 
本 字符 串 索 引 所 得 帕 氏 线索 ， 要 求 对 字母 表 中 的 第 ;个 字母 使 用 一 个 5 位 二 进 制 编码 表示 。 
15.83 ”解释 为 什么 使 用 TST 所 基于 的 基本 原理 〈 对 字符 而 不 是 对 字符 串 进 行 比较 ) 改进 二 又 
搜索 的 思想 不 是 有 效 的 ? 
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15.84 ” 找 出 一 个 大 型 的 文本 文件 (至少 10 字 节 )， 使 用 标准 BST、 帕 氏 线 索 和 TST 来 构建 该 
文件 的 一 个 索引 ， 比 较 三 者 的 高 度 和 内 部 路 径 长 度 。 . 
15.85 ”对 于 一 个 32 字 符 的 字母 表 ， 使 用 标准 BST、 帕 氏 线索 和 TST 构 造 N 个 随机 字符 组 成 的 文 
本 字符 串 索引 ， 进 行 实 验 研 究 比较 三 者 的 高 度 和 内 部 路 径 长 度 ， 其 中 N = 103，104，105 和 104。 
515.86 编写 一 个 确定 大 型 文本 字符 串 中 的 最 长 重复 序列 的 高 效 程 序 。 
015.87 ”编写 一 个 确定 大 型 文本 字符 捉 中 出 现 次 数 最 多 的 10 字 符 长 的 序列 的 高 效 程序 。 

“15.88 ”构建 一 个 字符 串 的 索引 ， 它 返回 其 参数 在 索引 文本 中 的 出 现 次 数 ， 并 能 像 排 序 和 搜索 
那样 访问 与 搜索 关键 字 匹 配 的 所 有 文本 的 位 置 。 
215.89 描述 一 个 N 个 字符 的 文本 字符 串 ， 使 基于 TST 的 字符 串 索 引 性 能 较 差 。 估 计 使 用 BST 
构建 同一 字符 串 索 引 的 开销 。 

15.90 对 于 N = 10 ，10 ，10 和 10' 分 别 对 随机 的 N 为 字符 串 构 建 一 个 索引 ， 且 每 位 都 是 16 的 
倍数 。 进 行 实 验 研究 来 确定 字 节 长 度 取 多 少 (1、2、4、8 还 是 16) ， 才 能 使 基于 TST 的 索引 构 
造 运 行 时 间 达 到 最 小 ? 
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适合 访问 大 型 文件 中 的 记录 的 搜索 算法 有 着 广泛 的 实际 应 用 。 搜 索 是 大 型 数据 库 的 一 项 
基本 操作 ， 而 且 肯 定 会 消耗 所 使 用 的 计算 环境 中 的 大 量 资源 。 随 着 因特网 的 出 现 ， 我 们 具备 
了 搜索 与 某 一 工作 相关 的 所 有 信息 的 能 力 ， 同 时 我 们 面临 的 挑战 是 希望 更 有 效 地 完成 搜索 任 
务 。 在 本 章 中 ， 我 们 讨论 支持 在 任意 大 的 符号 表 中 进行 高 效 搜索 的 基本 机 制 。 

类 似 于 第 11 章 ， 本 章 要 讨论 的 算法 与 不 同类 型 的 硬件 和 软件 环境 有 关 。 因 此 ， 我 们 将 要 
考虑 的 算法 比 前 面 几 章 中 给 出 的 C 算 法 更 抽象 。 当 然 ， 这 些 算法 也 都 是 我 们 熟悉 的 搜索 算法 的 
直接 实现 ,而且 用 C 语 言 方便 地 表示 出 来 并 适合 于 很 多 情况 。 在 这 里 我 们 将 采用 不 同 于 第 11 章 
的 方式 : 首先 详细 研究 特定 算法 的 实现 ， 再 考虑 其 性 能 特点 ， 然 后 讨论 具体 算法 如 何 用 于 实 
际 情况 才 有 效 。 按 字面 来 讲 ， 本 章 的 标题 有 些 用 词 不 当 ， 因 为 我 们 将 用 C 语 言 描述 这 些 算法 ， 
而 这 些 程 序 与 我 们 在 第 12 章 至 第 15 章 介绍 的 其 他 符号 表 应 用 算法 是 可 以 互 换 的 。 同 理 ， 它 们 
根本 不 是 外 部 方法 。 然 而 ， 这 些 算 法 都 是 基于 一 个 简单 的 抽象 模型 ， 因 此 可 使 我 们 对 特定 的 
外 部 设备 给 出 精确 的 搜索 方法 的 实现 。 

详细 的 抽象 模型 对 搜索 不 如 对 排序 那样 有 用 ， 这 是 因为 对 于 很 多 重要 的 应 用 而 言 ， 模 型 
所 涉及 的 搜索 开销 很 低 。 我 们 主要 关注 的 是 存储 在 外 部 设备 上 的 大 型 文件 的 搜索 方法 ， 我 们 
可 以 快速 访问 这 些 外 部 设备 上 ， 诸 如 磁盘 的 任意 数据 块 。 对 只 可 以 顺序 存 取 的 磁带 设备 (其 
模型 我 们 在 第 11 章 讨论 过 ), 搜索 操作 便 退 化 为 从 头 开始 顺序 读 取 直至 完成 的 一 般 且 慢 的 方法 。 
对 磁盘 设备 来 说 ， 我 们 可 以 更 有 效 地 搜索 : 最 为 显著 的 是 ， 我 们 将 要 介绍 的 算法 只 需 3 到 4 次 
对 磁盘 数据 块 的 引用 ， 就 可 以 支持 数 万 亿 个 记录 的 符号 表 的 搜索 和 插入 操作 。 系 统 参 数 ， 如 
数据 块 长 度 和 访问 新 块 的 开销 与 访问 块 内 某 元 素 的 开销 之 比 等 ， 会 影响 算法 的 性 能 ， 但 在 参 
数 的 一 定 取 值 范围 内 这 种 影响 相对 而 言 并 不 明显 (而 这 恰 是 实际 应 用 中 常 遇 到 的 情况 ) 。 此 外 ， 
我 们 使 得 这 些 算 法 适用 于 特定 的 实际 应 用 所 要 采取 的 重要 步骤 是 很 简单 的 。 

对 磁盘 设备 而 言 ， 搜 索 是 一 种 基本 的 操作 ， 通 常 利用 设备 的 特性 来 组 织 文件 以 使 访问 信 
息 更 高 效 。 简 而 言 之 ， 我 们 可 以 认为 在 磁盘 这 种 被 人 们 设计 用 来 存储 大 量 信 息 的 设备 上 可 以 
简单 高 效 地 实现 搜索 操作 。 在 本 章 中 ， 我 们 介绍 的 算法 基于 比 基 本 磁盘 操作 稍微 高 一 点 的 抽 
象 层 上 ， 这些 算法 还 支持 插入 以 及 动态 符号 表 的 其 他 操作 。 这 些 算法 优 于 直接 算法 之 处 等 价 
于 BST 和 散 列 算法 优 于 二 分 搜索 和 顺序 搜索 之 处 。 

在 很 多 计算 环境 中 ， 我 们 可 以 对 一 个 巨大 的 虚拟 内 存 进行 直接 寻 址 ， 并 依靠 操作 系统 来 
有 效 地 处 理 程序 对 数据 的 请 求 。 我 们 将 讨论 的 算法 在 这 些 环境 下 对 于 符号 表 的 实现 也 很 有 效 。 

一 个 用 计算 机 处 理 的 信息 集合 称 为 一 个 数据 库 。 很 多 研究 都 给 出 了 建立 、 维 护 和 使 用 数 
据 库 的 方法 。 这 其 中 很 多 工作 是 对 抽象 模型 的 研究 和 搜索 操作 的 实现 ， 当 然 ， 这 里 的 搜索 的 
标准 比 我 们 前 面 考虑 的 “单一 关键 字 匹 配 ” 的 判 据 更 为 复杂 。 在 一 个 数据 库 中 ， 由 于 含有 多 
种 关键 字 ， 所 以 搜索 可 能 会 是 基于 部 分 匹配 的 ， 而 且 返 回 结果 可 能 是 很 多 记录 。 我 们 在 第 五 
部 分 和 第 六 部 分 介绍 了 这 类 算法 。 通 常 的 搜索 请 求 是 足够 复杂 的 ， 因 为 它 需 要 我 们 在 整个 数 
据 库 中 顺序 搜索 ， 对 每 一 个 记录 检查 其 是 否 满足 搜索 标准 。 目 前 ， 对 于 大 型 数据 文件 中 数据 
位 与 特定 标准 的 匹配 的 快速 搜索 显示 的 是 一 个 数据 库 系统 的 能 力 ， 而 且 很 多 现代 的 数据 库 的 
理论 基础 正 是 本 章 所 描述 的 算法 。 
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16.1 游戏 规则 


如 第 11 章 中 所 述 ， 我 们 做 出 基本 的 假设 ; 顺序 存 取 数据 比 非 顺序 存 取 数 据 开销 小 得 多 。 
我 们 使 用 的 模型 把 用 来 实现 符号 表 的 存储 设备 分 为 若干 个 页 面 ， 这 些 页 面 是 可 以 被 磁盘 高 效 
存 取 的 连续 信息 块 。 每 页 保存 很 多 记录 ， 我 们 的 任务 是 把 记录 组 织 在 页 面 内 ， 使 得 只 读 取 几 
次 页 面 就 能 读 取 任 何 记录 。 我 们 假设 读 取 一 个 页 面 所 需要 的 MO 时 间 决 定 着 访问 某 些 记录 或 者 
在 该 页 面 内 进行 其 他 运算 所 需要 的 处 理 时 间 。 这 个 模型 在 很 多 方面 都 过 于 简化 ， 但 它 体现 了 
外 部 设备 的 基本 特性 ， 使 得 我 们 便于 研究 基本 的 算法 。 

定义 16.1 页 面 是 一 个 连续 的 数据 块 。 探 测 是 指 对 一 个 页 面 的 第 一 次 访问 。 

我 们 对 探测 次 数 少 的 符号 表 感 兴趣 。 我 们 不 去 精确 地 估计 页 面 大 小 和 探测 时 间 与 块 内 记 
录 访 问 所 需 时 间 之 比 。 我 们 期 望 这 些 值 大 约 为 100 或 1000， 我 们 不 需要 精确 地 估计 是 因为 ， 我 
们 将 介绍 的 算法 对 这 些 值 并 不 十 分 敏感 。 

这 个 模型 与 虚拟 内 存 系统 也 是 相关 的 ， 在 这 种 操作 系统 中 ， 很 多 文件 组 成 了 一 个 数据 块 ， 
并 使 得 访问 、 播 入 和 删除 操作 的 效率 很 高 。 一 定数 目的 记录 组 成 一 个 块 ， 与 读 取 一 个 块 内 记 
录 相 比 ， 处 理 块 内 记录 的 开销 可 以 忽略 。 

这 个 模型 与 虚拟 内 存 系统 也 是 直接 有 关 的 ， 我 们 可 以 直接 访问 非常 大 块 的 地 址 空间 ， 并 
且 依 靠 系统 把 常用 的 信息 保存 在 快速 设备 (如 内 存 ) 中 ， 而 把 不 常用 的 信息 保存 在 低速 设备 
(如 磁盘 ) 中 。 很 多 计算 机 系统 都 有 复杂 的 分 页 寻 址 机 制 ， 通 过 把 最 近 使 用 过 的 页 面 保 存在 高 
速 绫 看 中 以 快速 存 取 来 实现 虚拟 内 存 。 分 页 寻 址 系统 也 是 基于 我 们 所 考虑 的 抽象 模型 ， 把 磁 
盘 分 块 ， 并 认为 块 寻 址 的 时 间 开 销 远 远大 于 块 内存 取 数据 的 时 间 开 销 。 

因此 ， 我 们 提出 的 页 面 的 概念 与 文件 操作 系统 中 的 块 和 虚拟 内 存 系统 中 的 页 面 是 一 致 的 。 
为 简单 起 见 ， 针 对 某 些 系统 或 应 用 ， 我 们 可 能 会 考虑 每 块 的 多 页 面 或 者 每 页 面 的 多 块 。 这 些 
细节 不 会 降低 算法 的 效率 ， 从 而 不 会 影响 其 在 某 一 抽象 层 上 的 实用 性 。 

我 们 操纵 页 面 、 页 面 引 用 和 带 关键 字 的 记录 。 对 于 大 型 数据 库 ， 现 在 所 要 考虑 的 最 重要 的 
问题 是 维护 对 数据 的 索引 。 也 就 是 说 ， 就 像 在 12.7 节 讨论 的 那样 ， 我 们 假设 记录 是 按照 静态 的 
形式 存放 在 符号 表 中 ， 我 们 的 任务 就 是 构造 一 个 带 有 关键 字 和 记录 的 数据 结构 ， 使 得 我 们 可 以 
快速 地 找到 一 个 给 定 的 记录 。 例 如 ， 一 个 电话 公司 把 客户 信息 保存 在 一 个 大 型 静态 数据 库 中 ， 
该 数据 库 有 几 个 索引 ， 可 能 还 会 使 用 不 同 的 关键 字 ， 完 成 每 月 收费 、 日 常事 务 处 理 、 周 期 性 的 
请 求 回应 等 事务 。 对 于 大 型 数据 集 ， 索 引 很 关键 : 我 们 通常 不 复制 基本 数据 的 副本 ， 一 是 因为 
那样 需要 相当 多 的 额外 空间 ， 二 是 因为 我 们 想 避 免 多 个 副本 带 来 的 数据 不 统一 的 问题 。 

因此 ， 我 们 通常 假设 每 个 记录 是 实际 数据 的 一 个 引用 ， 这 个 记录 可 能 是 一 个 页 面 地 址 或 
数据 库 的 一 个 复杂 接口 。 为 简单 起 见 ， 我 们 在 数据 结构 中 不 保存 数据 的 副本 ， 但 我 们 要 保存 
关键 字 的 副本 一 一 这 是 一 种 非常 实用 的 方法 。 同 样 为 了 简便 起 见 ， 在 描述 算法 时 ， 我 们 并 不 
把 抽象 接口 用 于 记录 和 页 面 引 用 ,而 是 只 使 用 指针 。 因 此 ， 我 们 可 以 直接 把 实现 用 在 虚拟 内 
存 的 环境 中 ,但 是 必须 把 指针 和 指针 访问 转换 成 适合 外 部 排序 算法 的 复杂 机 制 。 

我 们 将 会 考虑 两 个 主要 参数 〈 块 大 小 和 相对 访问 时 间 ) 的 应 用 十 分 广泛 的 取 值 范围 。 我 
们 来 研究 一 个 完整 动态 符号 表 的 搜索 、 播 入 等 操作 如 何 用 几 次 探测 就 能 完成 的 算法 。 如 果 我 
们 要 完成 非常 多 次 操作 ， 则 需要 做 一 些 认 真 的 改进 。 例 如 ， 如 果 我 们 能 把 搜索 开销 由 3 次 探测 
减 为 2 次 ， 则 可 以 将 系统 性 能 提升 50%1!1 但 是 在 这 里 我 们 暂时 不 考虑 这 种 改进 ， 这 里 的 效率 是 
随 着 系统 和 应 用 变化 的 。 

在 早期 的 计算 中 ， 外 部 存储 设备 往往 体积 大 、 速 度 慢 而 且 存储 量 小 。 因 此 ， 通 过 一 定 的 
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方法 克服 这 些 缺 点 的 局 限 性 是 很 有 必要 的 。 早 期 的 编程 核心 是 如 何 定时 地 访问 在 旋转 的 磁盘 、 
磁 鼓 上 的 文件 ， 或 是 使 访问 数据 的 物理 位 移 达 到 最 小 。 早 期 的 核心 还 有 这 些 尝试 所 导致 的 大 
失败 ， 其 中 微小 的 计算 错误 都 会 使 进行 比 简单 实现 慢 得 多 。 对 比 之 下 ， 现 代 存 储 设 备 不 仅 体 
积 小、 速度 快 ， 而 且 存储 量 大 ， 因 而 ， 我 们 一 般 并 不 需要 关注 前 面 提 到 的 这 些 问题 。 实 际 上 ， 
在 现代 计算 机 环境 中 ， 我 们 试图 避 开 特定 物理 设备 的 特性 ， 即 在 各 种 计算 机 (甚至 未 来 的 机 
器 ) 上 都 达到 高 效率 ， 比 在 某 一 特定 机 器 上 达到 性 能 峰值 更 加 重要 。 

对 长 期 存在 的 数据 库 ， 围 绕 着 数据 的 完整 性 和 灵活 可 靠 的 访问 提出 了 很 多 问题 。 在 这 里 
我 们 不 予 考虑 。 对 于 这 类 应 用 ， 我 们 将 要 介绍 的 方法 是 一 些 好 的 算法 的 根本 ， 并 成 为 系统 设 
计 的 出 发 点 。 


16.2 索引 顺序 访问 


建立 索引 的 一 种 直接 方法 是 把 关键 字 及 其 记录 的 引用 按照 关键 字 的 顺序 存放 在 一 个 数组 
中 ， 然 后 用 二 分 搜索 〈12.4 节 ) 来 实现 搜索 。 对 于 N 条 记录 ， 这 种 方法 需要 1g N 次 探测 一 一 即 
使 对 于 大 型 文件 也 是 如 此 。 我 们 这 里 所 采用 的 基本 模型 使 得 我 们 直接 想到 对 这 种 方法 的 两 点 
改进 。 第 一 ， 通 常 索 引 本 身 会 很 大 并 超出 一 个 页 面 的 范围 。 由 于 我 们 只 能 通过 页 面 引用 访问 - 
页 面 ， 因 而 可 以 建立 完全 平衡 的 二 又 树 ， 该 树 的 内 部 节点 包含 关键 字 和 页 面 引 用 ， 外 部 节点 
包含 关键 字 和 记录 指针 。 第 二 ,访问 M 个 表 记 录 项 的 开销 与 访问 两 个 表 记 录 项 的 开销 一 样 ， 
因而 ， 我 们 可 以 采用 MM 又 树 使 得 每 个 节点 的 开销 与 二 又 树 一 样 。 这 一 改进 将 探测 数目 减 小 约 
为 与 logm 入 成 正比 。 正 如 在 第 10 章 和 第 15 章 中 讨论 过 的 , 在 实际 中 我 们 可 以 把 这 个 量 看 作 常 量 。 
例如 ， 如 果 M = 1000， 当 N < 10" 时 ， 则 logvwN < 5。 

图 16-1 给 出 了 关键 字 集 的 一 个 例子 。 图 16-2 描 述 了 这 些 关 键 字 的 树 结构 的 一 个 例子 。 我 们 需 
要 使 用 相对 小 的 M 和 N 值 ， 以 使 树 是 可 控制 的 。 然 而 ， 它 仍 表 明 对 于 较 大 的 M 值 ， 树 会 是 扁平 的 。 


111000110 
001111110 
110000001 
001101011 
101001011 
111111011 
111100010 
011111011 
101010100 
111110110 
010111101 
1110111i11 
101111100 
i100011100 


110100001 
010000111 
000000001 
010111111 
000110001 
111011110 
101010110 


101110010 
000001111 
001000111 
001100111 





图 16-1 十 进 制 关键 字 的 二 进 制 表示 图 16-2 索引 顺序 文件 的 结构 
注 ， 本 章 例子 中 使 用 的 关键 字 (左边 ) 是 3 位 数字 的 十 。 注 : 在 一 个 顺序 的 索引 中 ， 我 们 按照 顺序 把 关键 字 保 
进 制 数 ， 它 们 所 对 应 的 9 位 二 进 制 表示 在 右边 给 出 。 存在 整个 页 面 中 (右边 ) 。 有 一 个 索引 直接 指向 每 


页 中 的 最 小 关键 字 (左边 )。 为 了 添加 一 个 关键 字 ， 
我 们 需要 重建 这 个 数据 结构 。 
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图 16-2 给 出 的 树 是 一 种 独立 于 设备 的 索引 表 的 抽象 表示 ， 它 与 我 们 已 经 讨论 过 的 其 他 很 
多 种 数据 结构 是 相似 的 。 另 外 ， 我 们 注意 到 ， 这 种 数据 结构 与 底层 的 磁盘 存 取 软 件 中 依赖 设 
备 的 索引 相差 并 不 太 远 。 例 如 ， 在 早期 的 操作 系统 中 采用 一 种 两 层 模式 ， 其 底层 对 应 于 特定 
磁盘 设备 页 面 上 的 记录 ， 而 第 二 层 则 对 应 于 一 个 指向 各 个 设备 的 主 索引 。 在 这 种 操作 系统 中 ， 
主 索引 保存 在 主 存储 器 中 ， 因 此 访问 一 个 记录 需要 访问 两 次 磁盘 : 一 次 访问 得 到 索引 地 址 ， 
一 次 访问 含有 该 记录 的 页 面 地 址 。 随 着 磁盘 容量 的 增 大 ， 索 引 的 大 小 也 在 增加 ， 使 得 一 个 索 
引 要 保存 在 几 个 页 面 中 ， 最 后 导致 图 16-2 所 示 的 分 级 模式 的 出 现 。 我 们 继续 介绍 这 种 数据 结 
构 的 抽象 表示 ， 因 为 它 可 以 由 系统 底层 的 软 硬 件 来 直接 实现 。 

很 多 现代 的 操作 系统 也 使 用 类 似 这 种 树 的 数据 结构 在 一 个 磁盘 页 面 序列 上 组 织 大 型 文件 。 
这 类 树 不 包含 关键 字 ， 但 它们 能 有 效 地 支持 顺序 存 取 文 件 的 一 些 常 用 操作 ， 而 且 如 果 每 个 节 
点 包含 它 对 应 树 的 大 小 的 一 个 计数 ， 则 它们 还 支持 搜索 文件 中 第 x 个 记录 所 在 的 页 面 地址 。 

由 于 这 种 方法 把 顺序 关键 字 的 组 织 和 索引 存 取 集 合 起 来 ， 故 历来 人 们 习惯 地 将 图 16-2 摘 
述 的 索引 方法 称 为 索引 顺序 存 取 。 对 于 那些 数据 库 改 变 较 少 的 应 用 会 选择 这 种 方法 。 我 们 有 
时 也 将 这 里 的 索引 称 为 昌 录 。 使 用 索引 顺序 存 取 的 缺点 是 修改 上 且 录 的 开销 很 大 。 例 如 ， 增 加 
一 个 记录 就 需要 重建 整个 数据 库 ， 因 为 很 多 关键 字 要 分 配 新 位 置 而 且 要 更 新 索引 值 。 为 了 克 
服 这 一 缺点 并 提供 适中 的 开销 ， 早 期 的 操作 系统 提供 了 磁盘 上 的 页 面 谥 出 和 页 面 上 的 空间 溢 
出 ， 但 这 些 技术 在 动态 的 情况 下 最 终 都 不 是 





很 有 效 ( 见 练习 16.3)。 我 们 在 16.3 节 和 16.4 10. words in dictionary 
节 中 考虑 的 方法 会 提供 系统 而 高 效 的 方法 来 10 words in Moby Dick 
、 10 Social Security numbers 
处 理 这 些 情况 。 1012 “phone numbers 
性 质 16.1 ”在 一 个 索引 顺序 文件 中 一 次 in the world 
搜索 需要 常数 次 探测 ， 但 一 次 插入 需要 重新 1015 people who ever lived 
建立 整个 索引 102 grains of sand on beach 
“ 、 Coney Island 
在 本 章 中 , 我 们 使 用 术语 常量 并 不 严格 ， 075 bits of mam 
用 它 表 示 与 logw N 成 正比 的 一 个 量 ， 其 中 AM ever manufactured 
较 大 。 如 我 们 所 讨论 过 的 ， 这 种 用 法 只 适 于 10” electrons in universe 
实际 文件 大 小 。 图 16-3 给 出 了 更 多 的 例子 。 
> 外 钠 Pe Z| 6-3 \ 示 
即使 我 们 有 一 个 128 位 的 搜索 关键 字 ， 有 能 图 163 数据 集 大 小 示例 
力 确定 几乎 无 法 实现 的 2'* 个 不 同 的 记录 ， 注 : 这 些 上 界 表明 ， 我 们 可 以 安全 地 做 出 假设 : 任意 符 
Le 号 表 痢 不 会 超过 10” 个 记录 。 即 使 是 在 这 样 一 种 不 
我 们 仍 可 以 使 用 )000- 路 的 分 支 ， 只 需 13 次 现实 的 数据 库 中 ， 如 果 我 们 使 用 1000- 路 的 分 支 ， 
探测 就 能 找到 具有 给 定 关键 字 的 一 个 记录 。 我 们 可 以 用 少 于 10 次 的 探测 ， 找 到 具有 给 定 关键 字 
国 的 一 个 记录 。 即 使 我 们 找到 一 种 方法 存储 宇宙 中 每 
我 们 在 这 里 不 考虑 这 种 索引 的 建立 和 搜 个 电子 的 信息 ， 采用 1000 分 支 的 搜索 使 得 我 们 只 
个 特例 〈 见 练习 16.17 和 程序 16.2) 。 
练习 


p16.1 对 于 M = 10，100，1000 和 N = 103，104，105 和 105， 试 用 表格 给 出 logvN 的 值 。 

>16.2 对 M = 5 和 M = 6， 分 别 画 出 给 定 的 关键 字 的 索引 顺序 文件 的 结构 。 关 键 字 为 ， 516， 
177，143，632，572，161，774，470，411，706，461，612，761，474，774，635，343， 
461，351，430，664，127，345，171 和 357。 

co16.3 假设 我 们 在 容量 为 WM 的 页 面 上 建立 了 N 个 记录 的 索引 上 顺序 文件 ， 而 且 每 个 页 面 保留 了 K 


438 。 亲 四 训 分 起 洗 





个 空位 置 供 数据 库 扩展 使 用 。 试 给 出 完成 一 次 搜索 所 需要 的 探测 次 数 的 公式 ， 它 是 关于 N、M 
和 k 的 函数 。 使 用 这 个 公式 对 MM = 10，100 和 1000，N = 103，104，105 和 105, k= MI/10， 计 算 
出 一 次 搜索 所 需要 的 探测 次 数 。 
016.4 假设 一 次 探测 的 开销 大 约 是 a 个 时 间 单 位 。 在 一 个 页 面 中 查找 记录 的 平均 开销 大 约 是 
BM 个 时 间 单 位 。 对 于 /6 = 10，100 和 1000，N = 103，104，105 和 10*， 试 问 W 取 何 值 时 ， 索 引 
顺序 文件 中 一 次 搜索 的 时 间 开销 最 小 。 


16.3 B 树 


为 了 构建 在 动态 情况 下 同样 有 效 的 搜索 数据 结构 ， 我 们 需要 建立 多 路 树 ， 但 我 们 放宽 条 
件 : 每 个 节点 不 必 含 有 恰好 M 个 记录 ， 只 要 求 每 个 节点 至 多 包含 M 个 记录 。 因 而 ， 它 们 可 以 组 
成 一 个 页 面 ， 但 每 个 节点 中 的 记录 数 更 少 了 。 为 了 确信 节点 中 有 足够 的 记录 ， 以 提供 保持 搜 
索 路 径 更 短 的 分 支 ， 我 们 还 要 求 所 有 节点 至 少 ( 比 如 说 ) 有 M/2 个 记录 。 根 节点 可 能 除外 ， 它 
至 少 含有 一 个 记录 〈 即 两 个 链接 ) 。 根 节点 例外 的 原因 在 我 们 详细 讨论 完 构 造 算法 之 后 就 会 明 
白 。 在 1970 年 Bayer 和 McCeright 把 这 样 的 树 命名 为 B 树 (B tree)。 他 们 是 把 多 路 平衡 树 用 于 外 
部 搜索 的 最 早 科学 家 。 许 多 人 员 使 用 术语 B 树 来 描述 Bayer 和 McCreight 所 提出 算法 中 的 那 种 数 
据 结 构 。 在 这 里 ， 我 们 将 B 树 这 一 术语 一 般 化 ， 用 来 表示 一 类 相关 的 数据 结构 。 

我 们 已 经 给 出 了 一 个 B 树 的 实现 : 在 定义 13.1 和 13.2 中 ， 阶 为 4 的 B 树 正 是 第 13 章 中 的 平衡 
2-3-4 树 ， 其 中 每 个 节点 至 多 有 4 个 链接 ， 至 少 有 两 个 链接 。 实 际 上 ， 基 本 抽象 更 是 一 种 直接 推 
广 ， 我 们 可 以 推广 13.4 节 中 自 顶 向 下 2-3-4 树 的 实现 来 实现 B 树 。 然 而 ， 在 16.1 节 讨论 的 各 种 不 
同 的 外 部 搜索 和 内 部 搜索 的 差别 使 得 我 们 要 做 出 针对 不 同 实现 的 决定 。 在 这 一 节 里 ， 我 们 考 
虑 一 种 实现 : 

* 将 2-3-4 树 推广 成 为 一 棵 有 M/2 至 M 个 节点 的 树 。 

“将 多 路 节点 表示 为 记录 和 链接 的 数组 。 

。 实现 一 个 索引 结构 ， 而 不 是 一 个 包含 记录 的 搜索 结构 。 

“ 自 底 向 上 进行 分 裂 节 点 。 

。 把 记录 和 索引 分 开 。 

上 述 最 后 的 两 个 特性 并 不 重要 ， 但 易于 实现 ， 并 且 在 一 些 B 树 应 用 中 很 常见 。 

图 16-4 描 述 了 一 个 抽象 的 4-5-6-7-8 树 ， 它 将 13.3 节 中 讨论 的 2-3-4 树 做 了 推广 。 这 种 推广 
是 直接 的 : 4- 节 点 都 有 3 个 关键 字 和 4 个 链接 ，5- 节 点 都 有 4 个 关键 字 和 5 个 链接 ， 以 此 类 推 ， 
关键 字 之 间 每 个 可 能 的 间隔 有 一 个 链接 。 搜 索 从 树 根 开始 ， 找 到 搜索 关键 字 在 当前 节点 中 的 
合适 间隔 ， 然 后 经 过 相应 的 链接 到 达 下 一 个 节点 ， 实 现 从 一 个 节点 到 另 一 个 节点 的 移动 。 如 
果 我 们 在 达到 的 节点 中 找到 搜索 关键 字 ， 则 搜索 命中 ， 并 终止 这 个 搜索 过 程 。 如 果 我 们 达到 
树 的 底部 ， 且 没有 命中 ， 则 以 搜索 失败 告终 。 如 同 我 们 在 自 顶 向 下 2-3-4 树 那样 ， 如 果 我 们 分 
裂 一 个 满 的 节点 ， 则 在 向 下 遍历 搜索 完成 后 ， 可 以 在 树 的 底部 插入 一 个 新 的 关键 字 。 如 果 根 
节点 是 一 个 8- 节 点 ， 则 把 它 分 裂 为 连接 到 4- 节 点 的 2- 节 点 ， 而且， 如 果 任 何 时 候 看 到 连接 到 一 
个 8- 节 点 上 的 k- 节 点 ， 我 们 就 把 它 将 换 为 连接 到 两 个 4- 节 点 上 的 (K+ 了 )- 节 点 。 这 一 策略 可 以 保 
证 我 们 在 到 达 树 底 时 有 插入 新 节点 的 空间 。 

另外 ， 正 如 我 们 在 13.3 节 讨论 的 2-3-4 树 ， 我 们 可 以 自 底 向 上 进行 分 裂 : 通过 搜索 把 新 的 
关键 字 放 到 底部 节点 上 来 完成 插入 。 如 果 节 点 是 8- 节 点 ， 则 将 它 分 裂 为 两 个 4- 节 点 ， 并 在 其 父 
节点 中 揪 入 一 个 中 间 关 键 字 以 及 指向 两 个 新 节点 的 链接 ， 继 续 这 个 自 底 向 上 的 过 程 ， 直 到 遇 
到 一 个 不 是 8- 节 点 的 祖先 节点 。 
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图 16-4 一 棵 4-5-6-7-8 树 

注 : 该 图 给 出 了 一 种 2-3-4 树 的 实现 。 这 棵 树 是 由 含有 4 至 8 个 链接 的 节点 (分 别 由 3 至 7 个 关键 字 ) 构成 的 。 在 构 
造 2-3-4 树 时 ， 我 们 采用 自 项 向 下 或 自 底 向 上 的 插入 算法 ， 在 遇 到 8- 节 点 时 ， 通 过 分 裂 它 们 使 树 的 高 度 保 持 
为 常量 。 例 如 ， 要 把 J 插 入 到 这 棵 树 中 ， 我 们 首先 会 把 这 个 8- 节 点 分 型 为 两 个 4- 节 点 ， 然 后 ， 把 M 插 入 到 根 
节点 中 ， 使 其 变 成 一 个 6- 节 点 。 当 分 型 根 节点 时 ， 我 们 没有 选择 ， 只 能 创建 一 个 2- 节 点 的 新 的 根 节 点 ， 这 

就 是 根 节点 被 限制 为 至 少 4 个 链接 的 原因 。 

对 于 任何 偶 整 数 M ( 见 练习 16.9) ， 包 括 2， 在 前 面 两 段 的 描述 中 用 M/2 代 替 4 和 M 代 替 8 ， 
就 变 成 在 M/2-…-M 树 中 的 搜索 和 插入 过 程 。 

定义 16.2 M 阶 B 树 或 者 为 空 。 或 者 由 kK- 节点 构成 ， 每 个 节点 含有 Kk 一 1 个 关键 字 和 k 个 指向 树 
的 链接 ， 表 示 关 键 字 所 隔 开 的 K 个 间隔 。 这 种 结构 具有 以 下 性 质 : 在 根 节点 处 ，ki 沁 定 介 于 2 和 M 
之 闻 ， 存 其 他 节点 处 必定 介 于 M/2 和 M 之 闻 。 指 向 空 树 的 所 有 链接 到 根 节 点 的 距离 必定 相等 。 

B 树 算法 就 是 建立 在 这 个 基本 的 抽象 集 上 。 如 第 13 章 所 述 ， 我 们 有 很 大 的 自由 度 来 选择 这 
些 树 的 具体 表示 。 例 如 ， 我 们 可 以 使 用 扩展 的 红 黑 树 表示 ( 见 练习 13.69)。 对 于 外 部 搜索 ， 
我 们 使 用 更 加 直接 的 有 序数 组 表示 ， 取 MM 足够 大 以 使 MN- 节 点 充满 一 个 页 面 。 分支 因子 至 少 为 
M/2， 因 而 ， 任 何 搜 索 或 插入 的 探测 数目 都 为 有 效 的 常量 ， 如 性 质 16.1 中 所 讨论 的 那样 。 

除了 实现 刚才 所 讨论 的 方法 ， 我 们 还 要 考虑 另 一 种 变型 的 方法 ， 它 把 16.1 节 讨论 的 标准 
索引 做 了 推广 。 我 们 把 带 有 记录 引用 的 关键 字 保 存在 树 底部 的 外 部 页 面 中 ， 把 带 有 页 面 引 用 
的 关键 字 的 副本 保存 在 内 部 页 面 中 。 在 树 底 插入 新 记录 ， 并 使 用 基本 的 M/2-…-M 树 抽象 模型 。 
当 一 个 页 面 含有 M 个 记录 项 时 ， 我 们 把 它 分 裂 为 两 个 M/2 个 页 面 的 页 面 ， 并 在 其 父 节 点 中 插入 
一 个 指向 新 页 面 的 引用 。 当 树 根 需 要 分 裂 时 ， 我们 生成 一 个 含有 两 个 孩子 节点 的 新 树 根 ， 这 
样 使 得 树 高 增加 了 1。 

图 16-5 至 图 16-7 给 出 了 将 图 16-1 中 的 关键 字 (按照 给 定 的 顺序 ) 插入 到 空 树 中 构造 B 树 的 
过 程 。 这 里 B 树 的 阶 数 M = 5。 插 入 操作 简单 说 就 是 在 页 面 中 增加 一 个 新 记录 ， 但 我 们 可 以 通 
过 最 后 的 树 结 构 ， 在 构造 树 结构 的 过 程 中 ， 确定 何 时 增加 记录 并 不 简单 。 它 共有 7 个 外 部 页 面 ， 
因此 ， 必 定 有 6 次 外 部 节点 的 分 裂 ， 而 且 该 树 高 为 3， 因 此 树 根 必须 分 裂 2 次 。 这 些 内 容 在 图 的 
注解 中 已 做 描述 。 
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图 16-5 B 树 构造 (第 1 部 分 ) 


注 : 这 个 例子 显示 了 在 一 个 初始 为 空 的 B 树 中 进行 6 次 插入 的 过 程 ， 它 利用 了 能 够 保存 5 个 关键 字 以 及 链接 的 页 
面 ， 关 键 字 为 3- 位 数字 的 八进制 数 〈 即 9- 位 的 二 进 制 数 ) 。 我 们 把 关键 字 按 照 顺序 保存 在 页 面 中 。 第 6 次 插 
入 导致 了 一 次 分 裂 ， 该 分 裂 将 一 个 内 部 节点 分 裂 为 各 含有 3 个 关键 字 的 两 个 外 部 节点 ， 并 产生 作为 索引 的 
一 个 内 部 节点 : 它 的 第 一 个 指针 指向 含有 大 于 或 等 于 000 且 小 于 601 的 所 有 关键 字 的 页 面 ， 第 二 个 指针 指 
向 含有 大 于 或 等 于 601 的 所 有 关键 字 的 页 面 。 
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16-6 B 树 构造 (第 2 部 分 ) 


注 : 在 图 16-5 中 B 树 的 最 右边 杭 入 4 个 关键 字 742、373、524 和 766 之 后 ， 这 两 个 外 部 页 面 均 为 满 状态 ( 左 图 )。 
接着 ， 当 插入 275 时 ， 第 一 个 页 面 分 列 ， 并 在 索引 中 产生 一 个 到 新 页 面 的 链接 《以 及 它 的 最 小 关键 字 373) 
(中 国 )， 然 后 ， 插 入 737， 底 部 的 页 面 分 耿 ， 再 次 在 索引 中 产生 一 个 到 新 页 面 的 链接 ( 右 图 )。 














图 16-7 B 树 构造 (第 3 部 分 ) 


注 : 继续 上 面 的 过 程 ， 在 图 16-6 中 B 树 的 最 右边 插入 13 个 关键 字 574、434、641、207、001、277、061、736、 
526、562、017、107 和 147。 当 插入 277 ( 左 图 )、526 《中 图 ) 和 107 ( 右 图 ) 时 ， 发 生 节 点 分 职 。 由 于 插 
入 5$26 引 起 的 节点 分 裂 还 导致 索引 页 面 分 裂 ， 使 树 的 高 度 增 1 。 
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程序 16.1 给 出 了 B 树 实现 节点 的 类 型 定义 和 初始 化 代码 。 这 个 程序 与 我 们 在 第 13 章 至 第 15 
章 中 考察 过 的 几 个 其 他 树 搜索 类 似 。 主 要 的 增加 是 我 们 使 用 了 C 中 的 union 构 造 来 定义 差异 较 
小 的 具有 相同 结构 〈 和 相同 链接 类 型 ) 的 外 部 节点 与 内 部 节点 ， 每 个 节点 由 关键 字数 组 和 计 
数 器 组 成 ， 其 中 关键 字 带 有 相关 链接 (在 内 部 节点 中 ) 和 记录 (在 外 部 节点 中 ) ， 计 数 器 给 出 
活动 记录 项 的 数目 。 


i 程序 16.1 B 树 的 定 炎 六 初始 化 “ 有 
B 树 中 的 每 个 节点 含有 一 个 数组 以 及 一 个 计数 器 ， 记录 数组 中 的 活动 记录 项 数 。 在 内 部 有 
点 中 ， 每 个 数组 项 含有 一 个 关键 字 以 及 指向 节点 的 一 个 链接 。 在 外 部 节点 中 ， 每 个 数组 项 含 
有 一 个 关键 字 和 一 个 记录 。C 的 union 构 造 使 我 们 可 以 在 一 个 声明 中 指定 这 些 选 项 。 
我 们 把 新 节点 初始 化 为 空 〈 计 数 域 设 为 0) ， 数 组 项 0 为 观察 哨 。 空 B 树 是 一 个 指向 空 节点 
的 链接 。 同 样 ， 我 们 维持 几 个 变量 来 跟踪 树 中 的 记录 数 和 树 的 高 度 ， 它 们 都 初始 化 为 0。 
typedef struct STnode* link; 
typedef struct | 
{ Key key; union { link next; Item item; } ref; } 
entry; 
struct STnode { entry b[M]; int m; }; 
static link head; 
static int H, N; 
link NEW() 
{ link x = malloc(sizeof *x); 
x->m = 0; 
return Xx; 
} 
void STinit(int maxN) 
{ head = NEW(); H= 0; N = 0; } 


有 了 这 些 定义 和 树 的 例子 ， 程 序 16.2 给 出 了 搜索 操作 的 代码 。 对 于 外 部 节点 ， 我 们 扫描 节 
点 数组 ， 来 查找 同 搜索 关键 字 匹 配 的 一 个 关键 字 ， 如 果 成 功 搜索 到 ， 则 返回 相关 记录 项 ， 否 
则 ， 返 回 一 个 空 的 记录 项 。 对 于 内 部 节点 ， 通 过 扫描 节点 数组 ， 来 查找 指向 含有 搜索 关键 字 
的 惟一 子 树 的 链接 。 


程序 16.2 B 树 搜索 


这 个 B 树 的 搜索 实现 是 基于 一 个 普通 的 递归 函数 。 对 于 内 部 节点 (高度 大 于 0)， 我 们 通过 
扫描 找 出 大 于 搜索 关键 字 的 第 一 个 关键 字 ， 并 用 上 一 次 链接 的 指向 对 子 树 进行 递归 调用 。 对 
于 外 部 节点 (高 度 为 0) ， 我 们 进行 扫描 ， 检 查 是 否 存 在 一 个 其 关键 字 等 于 搜索 关键 字 的 记录 。 


Item searchR(link h, Key v, int H) 
{ int j; 
if (H == 0) 
for (j = 0; j < h->m; j++) 
if (eq(v, h->b[j] .key)) 
return h->b[j] .ref.item; 
if (H != 0) 
for (j = 0; j < h->m; j++) 
if ((j+1 == h->m) || less(v, h->b[j+1] .key)) 
return searchR(h->b[j] .ref.next, v, H-1); 
return NULLitem; 


蓝 四 夯 分 下 圭 


+ 
Item STsearch (Key v) 
{ return searchR (head, v, H); } 


程序 16.3 给 出 了 B 树 的 插入 操作 的 实现 。 这 里 也 采用 了 前 面 第 13 章 和 第 15 章 中 大 量 采用 的 
递归 方法 。 这 是 一 种 自 底 向 上 的 实现 ， 因 为 我 们 在 递归 调用 之 后 才 检 查 节 点 的 分 裂 ， 因 而 第 
一 个 分 裂 的 节点 是 一 个 外 部 节点 。 分 裂 要 求 产 生 一 个 指向 分 裂 节 点 父 节点 的 新 的 链接 ， 父 池 
点 可 能 需要 分 裂 ， 并 产生 一 个 指向 它 的 父 节点 的 链接 ， 以 此 类 推 ， 也 许 最 终 都 会 到 达 根 节点 
( 当 分 裂 根 节 点 时 ， 我 们 建立 一 个 有 两 个 孩子 节点 的 新 的 根 节 点 )。 对 比 之 下 ， 程 序 13 0 
树 的 实现 是 在 递归 调用 之 前 检查 节点 的 分 裂 ， 因 而 ， 沿 着 向 下 的 方向 进行 分 裂 。 我 们 可 能 
使 用 一 个 自 顶 向 下 针对 B 树 的 方法 〈 见 练习 16.10) 。 在 许多 B 树 的 应 用 中 采用 自 顶 页 向 下 的 方法 
还 是 自 底 向 上 的 方法 差别 不 大 ， 因 为 这 类 树 是 非常 扁平 的 。 


程序 16.3 “B 树 插入 


像 在 插入 排序 中 那样 ， 通 过 把 较 大 数据 项 向 右 移动 一 个 位 置 ， 来 插入 新 的 数据 项 。 如 果 
插入 时 使 节点 溢出 ， 我 们 就 调用 sp1it 把 该 节点 分 裂 为 两 半 ， 并 返回 指向 新 节点 的 链接 。 在 递 
归 的 上 一 层 ， 这 个 额外 的 链接 导致 在 内 部 父 节点 上 进行 一 次 类 似 的 插入 过 程 ， 因 而 ， 它 也 可 
能 使 节点 分 裂 ， 并 沿 着 根 节 点 的 方向 继续 插入 。 


link insertR(link h, Item item, int H) 
{ int i, j; Key v = key(item); entry X; link t, u; 
x.key = Vi x.ref.item = item; 
if (H == 0) 
for (j = 0; j < bh->nm; j++) 
if (less(v, h->b[j] .key)) break; 
if (H != 0) 
for (j = 0; j < h->m; j++) 
if ((j+1 == h->m) [| less(v, h->b[j+1] .key)) 
{ 
t = h->b[j++] .ref .next; 
u = insertR(t, item, H-1); 
if (u == NULL) return NULL; 
x.key = u->b[0] .key; x.ref.next = u; 
break; 
了 
for (i =(h->m)++; i > j; i--) 
h->bfi] = h->bli-1]; 
h->b[j] = x; 
if (h->m < M) return NULL; else return split(h); 
了 
void STinsert(Item item) 
{ link t, u = insertR(head, item, H); 
if (u == NULL) return; 
t = NEW(); t->m = 2; 
t->b[0] .key = head~>b[0] .key; 
t->b[0] .ref .next = head; 
t->b[1i] .key = u->b[0] .key; 
t->b[1] .ref .next = u; 
head = t; H++; 


UU 


第 16 尝 外 序 搜 索 443 





程序 16.4 给 出 了 节点 分 裂 的 代码 。 代 码 中 使 用 的 变量 M 取 偶数 值 ， 而 且 树 中 的 每 个 节点 最 
多 只 有 MM 一 1 个 数据 项 。 这 一 策略 使 得 我 们 在 对 一 个 节点 进行 分 裂 之 前 可 以 插入 第 M 个 数据 项 ， 
这 样 不 用 太 大 的 开销 就 大 大 简化 了 代码 ( 见 练习 16.20 和 练习 16.21)。 为 简便 起 见 ， 我 们 在 本 
节 稍 后 的 分 析 结果 中 只 使 用 每 个 节点 中 M 个 数据 项 的 上 界 ， 因 为 实际 差异 很 小 。 在 自 顶 向 下 
的 实现 中 ， 我 们 不 采用 这 种 技术 ， 因 为 可 以 肯定 的 是 这 种 便利 总 能 提供 在 每 个 节点 中 插入 一 
个 新 的 关键 字 的 空间 。 
程序 16:4.4B 树 节点 分 列 
在 B 树 中 分 裂 一 个 节点 ， 首 先是 创建 一 个 新 节点 ， 并 将 大 部 分 关键 字 移 给 该 节点 ， 然 后 调 
整 计数 并 在 中 间 两 个 节点 设置 观察 哨 。 这 个 代码 假设 M 为 偶数 ， 每 个 节点 利用 额外 位 置 存储 引 
起 分 裂 的 数据 项 。 节 点 中 关键 字 的 最 大 个 数 为 M1。 当 节点 包含 M 个 关键 字 时 ， 该 节点 分 裂 成 
两 个 包含 /2 个 关键 字 的 节点 。 
link split(link h) 
{ int j; link t = NEW(); 
for (j = 0; j < M/2; j++) 
t->b[j] = h->b[M/2+j]; 
h->m = M/2; t->m = M/2; 


return t; 


} 


性 质 16.2 在 阶 为 MM 的 包含 N 个 数据 项 的 B 树 中 进行 一 次 搜索 或 插入 需要 的 探测 次 数 介 于 
logxN 和 logw2N 之 间 ， 在 实际 中 它 是 一 个 常数 。 

这 个 性 质 是 根据 观察 而 得 ，B 树 内 部 的 所 有 节点 ( 古 指 那 些 不 是 根 节点 也 不 是 外 部 节点 的 
节点 ) 的 链接 介 于 M/2 和 M 之 间 ， 因 为 它们 是 由 分 裂 具 有 M 个 关键 字 的 节点 而 形成 ， 共 只 能 增 
长 大 小 (此 时 较 低 层 的 节点 被 分 裂 )。 在 最 好 的 情况 下 ， 这 些 节点 形成 一 棵 度 为 M 的 完全 树 ， 
它 就 是 性 质 ( 见 性 质 16.1) 中 所 户 述 的 上 界 。 在 最 坏 的 情况 下 ， 可 得 度 为 M/2 的 完全 树 。 “” 国 

当 M=1000 时 ， 如 果 N 小 于 1.25 亿 ， 则 树 高 不 超过 3。 在 一 些 典 型 情况 下 ， 我 们 可 以 把 树 根 
节点 保存 在 内 存 中 以 使 开销 降 为 2 次 探测 。 对 于 某 些 在 磁盘 上 搜索 的 应 用 ， 在 进行 非常 多 次 搜 
索 之 前 首先 要 完成 这 一 步 ， 在 带 有 缓存 的 虚拟 内 存 系统 中 ， 由 于 树 根 节点 被 访问 的 次 数 最 多 ， 
所 以 要 把 它 保存 在 最 快 的 存储 器 中 。 

在 一 个 大 型 文件 中 进行 搜索 和 插入 操作 ， 对 于 一 个 搜索 实现 ， 它 所 需 的 探测 次 数 至 少 为 2 
次 。B 树 得 到 广泛 应 用 正 是 因为 这 一 点 。 获 得 这 个 速度 和 灵活 性 的 代价 是 节点 内 的 未 用 空间 ， 
这 是 大 型 文件 所 带 来 的 。 

性 质 16.3 阶 数 为 M， 由 NN 个 随机 数据 项 组 成 的 B 树 ， 期 望 的 页 面 数 约 为 1.44N/M。 

Yao 在 1979 年 证 明了 这 个 结果 ,使 用 的 数学 分 析 法 超出 本 书 的 范围 ( 见 第 四 部 分 参考 文献 )。 
它 是 根据 分 析 树 增长 的 一 个 简单 概率 模型 得 到 的 。 在 前 M/2 个 节点 插入 之 后 ， 任 何 时 刻 ， 存 在 
含有 i 个 数据 项 的 ;个 外 部 页 面 。 对 于 M/2 似 iM， 有 tmz +…+ tm = N。 因 为 节点 之 间 的 每 个 间 
隔 等 概率 接收 随机 关键 字 ， 一 个 节点 有 i 个 数据 项 的 概率 为 /N。 明 确 地 说 ， 对 于 i < M， 这 个 
量 就 是 含有 i 个 数据 项 的 外 部 页 面 的 个 数 减少 1 和 含有 (i+]) 个 数据 项 的 外 部 页 面 的 个 数 增加 1 的 
概率 。 如 果 i = 2M， 这 个 量 就 是 含有 2M 个 数据 项 的 外 部 页 面 的 个 数 减 少 1L 和 含有 MM 个 数据 项 的 
外 部 页 面 的 个 数 增加 2 的 概率 。 这 种 随机 过 程 称 为 马尔 科 夫 链 。Yao 的 结果 就 是 基于 对 马尔 科 
夫 链 的 性 质 的 分 析 而 得 出 的 。 图 

我 们 也 可 以 编写 一 段 程序 模拟 这 一 随机 过 程 来 验证 性 质 16.3 ( 见 练习 16.11 和 图 16-8 和 图 
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16-9)。 当 然 ， 我 们 还 可 以 只 构建 随机 B 树 并 度量 它们 的 结构 性 质 。 这 一 随机 模拟 的 方法 比 数 
学 分 析 或 是 完全 实现 要 简单 。 它 是 我 们 研究 和 比较 各 类 算法 时 所 使 用 的 重要 工具 (如 见 练习 


16.16)。 


节点 就 分 


图 16-8 大 型 B 树 的 增长 
注 : 在 这 个 模拟 中 ,我 们 把 带 有 随机 关键 字 的 数据 项 插入 到 初始 为 空 的 B 树 中 ， 该 B 树 的 页 面 只 能 存放 9 个 关键 


| 


字 和 链接 。 每 行 显 示 外 部 节点 ， 每 个 外 部 节点 用 一 条 长 度 与 那个 节点 中 的 数据 项 数 成 正比 的 线段 表示 。 在 


外 部 节点 中 ， 大 部 分 插入 发 生 在 不 满 的 节点 上 ， 使 节点 的 大 小 增 1。 当 插入 发 生 在 满 的 节点 上 时 ， 


裂 为 原 节 点 大 小 一 半 的 两 个 节点 。 
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注 : 图 16-8 的 男 一 个 版 本 显示 了 在 B 树 增长 过 程 中 ， 页 面 被 填 满 的 情况 。 页 面 中 的 大 多 数 插入 发 生 在 页 面 未 满 
的 情况 ， 只 是 对 页 面 的 占用 增 1。 当 插入 使 页 面 变 满 时 ， 页 面 就 分 列 成 两 个 半空 的 页 面 。 

其 他 符号 表 操 作 的 实现 与 我 们 前 面 介绍 的 基于 树 的 其 他 表示 是 类 似 的 ， 留 作 练习 ( 见 练 
习 16.22 至 练习 16.25)。 特 别 是 ，select 和 sort 实 现 是 直接 的 ， 但 和 往常 一 样 ， 实 现 一 个 真正 的 
delete 操 作 确 实 是 一 件 挑 战 性 的 任务 。 像 插入 操作 一 样 ， 多 数 的 delete 操 作 都 是 简单 地 从 一 个 
外 部 页 面 中 删除 一 个 数据 项 ， 并 使 计数 器 减 1。 但 是 如 何 从 一 个 只 有 M/2 个 数据 项 的 节点 中 删 
除数 据 项 呢 ? 一 种 自然 的 方法 是 用 它 的 兄弟 节点 中 的 数据 项 来 填充 删除 的 空间 〈 也 许 会 使 节 
点 数目 减 1) ， 但 实现 起 来 很 复杂 ， 因 为 要 相应 地 寻找 与 所 移动 的 元 素 相 关联 的 关键 字 。 在 实 
际 情况 下 ， 我 们 可 以 采用 的 简单 办 法 是 使 得 节点 保持 非 满 状态 ， 且 对 算法 性 能 的 影响 很 小 
( 见 练习 16.25)。 

在 基本 B 树 抽象 的 基础 上 有 很 多 直接 的 变型 。 其 中 一 类 是 把 尽 可 能 多 的 页 面 引 用 保存 在 一 
个 节点 中 ， 节 省 时 间 开 销 ， 但 分 支 因 子 增 大 ， 也 使 树 更 扁平 。 正 如 我 们 已 经 讨论 过 的 ， 这 些 
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改进 在 现代 系统 中 带 来 的 好 处 并 不 明显 ， 因 为 标准 的 参数 值 就 可 使 我 们 使 用 两 次 探测 实现 
search 和 insert 操 作 。 这 是 一 个 不 太 容 易 改 进 的 界限 。 另 一 类 变型 通过 在 分 裂 之 前 把 节点 与 其 
兄弟 节点 进行 组 合 来 提高 存储 效率 。 练 习 16.13 至 练习 16.16 是 关于 这 种 方法 的 。 对 于 随机 关键 
字 ， 这 种 方法 把 所 使 用 的 存储 空间 从 44% 降 到 23%。 通 常 来 说 ， 正 确 地 选择 哪 一 种 变型 与 应 用 
问题 的 特性 有 关 。 给 出 B 树 可 应 用 的 各 种 不 同情 况 ， 我 们 将 不 再 详细 地 考虑 这 些 问 题 。 我 们 也 
不 会 考虑 实现 的 细节 。 因 为 有 很 多 与 设备 和 系统 有 关 的 事情 需要 考 虚 。 通 常 来 说 ， 深 入 钻研 
这 些 实现 并 不 符合 本 书 的 主旨 ， 而 且 我 们 给 出 的 基本 算法 已 经 具备 较 好 的 性 能 ， 所 以 我 们 也 
不 去 讨论 各 种 现代 系统 中 如 何 实现 B 树 的 代码 ， 而 且 这 些 代码 常常 是 不 兼容 的 。 

练习 

>16.5 给 出 将 关键 字 序 列 EA SYQUESTIONWITHPLENTYOFKEY Ss 按照 顺序 
插入 到 初始 为 空 的 树 中 所 得 的 3-4-5 树 。 

c16.6 对 于 M = 5， 把 关键 字 516、177、143、 632、572、161、774、470、411、706、461、 
612、 761、 474, 774、635、343、461、351、430、664、127、345、 171 和 357 揪 入 到 初始 为 
空 的 树 中 ， 画 出 与 图 16-5 至 图 16-7 对 应 的 图 。 

016.7 对 于 每 个 值 M >2， 给 出 把 练习 16.28 中 的 关键 字 插入 到 初始 为 空 的 树 中 所 得 B 树 的 高 度 。 
16.8 对 于 M =4， 画 出 把 16 个 相等 关键 字 播 和 到 初始 为 空 的 树 中 的 B 树 。 

*。16.9 画 出 把 关键 字 EASYQUBESTION 揪 入 到 初始 为 空 的 树 中 所 得 的 1-2 树 。 并 解释 在 
实际 中 为 什么 1-2 树 不 像 平 衡 树 那样 常用 。 

*16.10 ”修改 程序 16.3 中 的 B- 树 插入 实现 ， 使 其 沿 着 树 的 向 下 方向 分 裂 ， 方 法 类 似 于 2-3-4 树 的 
插入 过 程 (程序 13.6)。 

*。16.11 编写 一 个 计算 阶 为 M 的 B 树 的 外 部 页 面 平均 数 的 程序 ， 该 B 树 由 把 N 个 随机 关键 字 插 入 
到 初始 为 空 的 树 中 构造 而 成 ， 使 用 性 质 16.1 之 后 描述 的 概率 过 程 。 给 出 对 于 M =.10，100， 和 
1000, N= 103，104， 105 和 105 的 实验 结果 。 

216.12 假设 在 一 棵 3 层 的 树 中 ， 我 们 可 以 在 内 存 中 保存 a 个 链接 ， 在 表示 内 部 节点 的 页 面 中 保 
存 2 到 22 个 链接 ， 表 示 外 部 节点 的 页 面 中 保存 c 到 2c 个 链接 。 在 这 样 的 一 棵 树 中 ， 我 们 最 多 能 
保存 多 少 个 数据 项 ( 它 为 <、b 和 c 的 函数 ) ? 

016.13 考虑 B 树 中 进行 兄弟 节点 分 型 (或 B* 树 ) 的 启发 式 搜索 ， 当 一 个 节点 含有 M 个 记录 项 
时 就 要 进行 分 裂 ， 我 们 把 节点 与 它 的 兄弟 节点 进行 组 合 。 如 果 兄 弟 节 点 有 k 个 记录 项 且 k< M 一 
1， 我 们 重新 分 配 数 据 项 ， 使 其 兄弟 节点 和 该 满 节点 都 有 大 约 (M + 月 /2 个 记录 项 ， 否 则 ， 我 们 
使 根 节点 增长 存放 大 约 4M/3 个 数据 项 ， 并 在 达到 这 个 界限 时 分 裂 根 节点 ， 产 生 一 个 具有 两 个 
记录 项 的 新 的 根 节 点 。 闸 述 在 阶 为 M 且 有 N 个 数据 项 的 B* 树 中 进行 一 次 搜索 或 插入 所 用 探测 数 
目的 界限 。 对 于 MM = 10，100， 和 1000，N = 103，104，105 和 105， 把 你 的 结果 与 B 树 同一 问题 
的 界限 相 比较 。 

“16.14 研制 一 个 〈 基 于 兄弟 节点 分 裂 法 的 启发 式 搜索 ) B* 树 的 insert 实 现 。 

。16.15 针对 兄弟 节点 分 裂 法 的 启发 式 搜索 ， 画 出 一 个 类 似 图 16-8 的 图 。 

。16.16 对 于 M = 10，100， 和 1000，N = 103，104， 105 和 104， 采用 兄弟 节点 分 裂 法 ， 通 过 把 
随机 节点 插入 到 初始 为 空 的 树 中 构造 阶 为 M 的 一 棵 B( 树 ， 进 行 随机 模拟 ( 见 练习 16.11) 来 确 
定 所 用 的 页 面 平均 数 。 

“16.17 编写 一 个 自 底 向 上 构造 B 树 索引 的 程序 ， 从 指向 含有 M 到 2M 个 数据 项 的 页 面 的 数组 指 
针 开 始 ， 且 页 面 是 有 序 的 。 

。16.18 用 课本 中 讨论 的 B 树 插入 算法 (程序 16.3) 能 否 构造 一 个 所 有 页 面 均 满 的 索引 呢 ? 并 
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解释 你 的 答案 。 

16.19 ”假设 多 台 不 同 的 计算 机 都 可 以 访问 同一 索引 ， 因 而 可 能 几 个 程序 同时 都 试图 向 B 树 中 
插入 一 个 新 节点 。 解 释 你 使 用 自 顶 向 下 B 树 而 不 是 自 底 向 上 B 树 的 原因 。 假 设 每 个 程序 在 读 取 
节点 信息 时 可 以 (的 确 ) 延迟 其 他 程序 来 修改 任何 给 定 节点 的 信息 ， 并 能 使 其 修改 延迟 进行 。 


。16.20 
>16.21 
>16.22 
16.23 
“16.24 


修改 程序 16.1 至 程序 16.3 中 的 B 树 实现 ， 使 树 中 每 个 节点 可 以 保存 M 个 数据 项 。 
对 于 N = 103，104，105 和 105， 列 表 给 出 logsoo N 和 log oo N 的 益 别 。 

对 基于 B 树 的 符号 表 实 现 sort 操 作 。 

对 基于 B 树 的 符号 表 实 现 select 操 作 。 

对 基于 B 树 的 符号 表 实 现 delete 操 作 。 


016.25 对 基于 B 树 的 符号 表 实 现 delete 操 作 ， 使 用 以 下 简单 方法 : 在 外 部 页 面 上 删除 一 个 指示 
的 数据 项 (允许 页 面 中 的 数据 项 个 数 少 于 M/2) ， 除 了 被 删除 的 数据 项 是 页 面 中 最 小 值 时 可 能 
调整 其 值 的 情况 ， 其 他 改变 不 会 向 上 传播 。 

“16.26 在 节点 内 使 用 二 分 搜索 〈 见 程序 12.6) ， 修 改 程序 16.2 和 程序 16.3。 对 于 N = 103，104， 
10 和 10'， 确 定 W 的 值 ， 使 程序 把 带 有 关键 字 的 N 个 数据 项 插入 到 初始 为 空 的 表 中 构建 符号 表 
的 时 间 最 短 。 并 与 红 黑 树 (程序 13.6) 在 时 间 上 做 比较 。 


16.4 可 扩展 散 列 


除了 B 树 以 外 ， 还 有 一 种 方法 可 以 把 数字 搜索 算法 应 用 到 外 部 搜索 ， 它 是 由 Fagin、 
Nievergelt、Pippenger 和 Strong 在 1978 年 提出 的 。 这 种 方法 称 为 可 扩展 散 列 ， 对 于 典型 应 用 问 
题 ， 它 只 需要 一 到 两 次 的 探测 就 能 实现 search 操 作 。 相 应 的 insert 实 现 〈 几 乎 总 是 ) 也 只 需要 
一 到 两 次 探测 即 可 。 

可 扩展 散 列 组 合 了 散 列 、 多 路 线索 算法 以 及 顺序 存 取 方法 的 特征 。 就 像 第 14 章 的 散 列 方 
法 ， 可 扩展 散 列 是 一 种 随机 算法 ， 第 一 步 是 定义 一 个 把 关键 字 转 换 为 整数 的 散 列 函数 〈 见 
14.1 节 )。 为 简化 起 见 ， 本 节 只 考虑 关键 字 为 定 长 随机 位 串 的 情况 。 像 第 15 章 中 的 多 路 线索 算 
法 ， 可 扩展 的 散 列 ， 首 先 使 用 关键 字 的 前 几 位 索引 到 一 个 大 小 为 2 的 寡 的 表 ， 并 从 中 开始 搜索 。 
像 B- 树 算法 一 样 ， 可 扩展 的 散 列 把 数据 项 存储 在 页 面 中 ， 当 页 面 填 满 时 可 以 分 裂 为 两 块 。 像 
索引 顺序 访问 方法 一 样 ， 可 扩展 的 散 列 维持 一 个 目录 ， 由 此 目录 可 以 找到 与 搜索 关键 字 匹 配 
的 数据 项 所 在 的 页 面 。 一 个 算法 中 含有 这 些 特 点 使 得 可 扩展 散 列 方法 是 搜索 算法 中 最 为 完美 
的 算法 。 

假设 可 用 的 磁盘 页 面 数 为 2 的 震 ， 即 2*。 这 样 ， 我 们 就 能 维持 一 个 由 2“ 个 不 同 页 面 引 用 的 
目录 。 使 用 关键 字 的 前 d 位 索引 到 目录 。 且 在 同一 页 面 上 ， 可 以 保存 与 关键 字 的 前 k 位 匹配 的 
所 有 关键 字 ， 如 图 16-10 所 示 。 与 B 树 一 样 ， 我 们 保存 页 面 中 的 元 素 有 序 ， 并 且 在 与 搜索 关键 
字 相 对 应 的 页 面 中 进行 顺序 搜索 。 

图 16-10 解 释 了 可 扩展 散 列 的 两 个 基本 概念 。 第 一 ， 我 们 无 需 保 存 2“ 个 页 面 。 也 就 是 说 ， 
我 们 可 以 使 多 个 指针 指向 同一 页 面 ， 同 时 不 会 影响 搜索 的 速度 。 我 们 把 具有 不 同 前 4 位 值 的 关 
键 字 保 存在 同一 页 面 ， 对 给 定 关键 字 仍然 可 以 通过 目录 中 的 指针 访问 到 其 相应 元 素 所 在 的 页 
面 。 第 二 ， 随 着 表 的 大 小 不 断 增 长 ， 我 们 可 以 使 用 加 倍 目录 长 度 的 方法 来 容纳 更 多 的 元 素 。 
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图 16-10 目录 页 面 索 引 
注 : 在 这 个 包含 8 个 记录 项 的 目录 中 ， 通 过 存储 与 记录 的 前 3 位 匹配 的 所 有 记录 可 以 把 40 个 关键 字 存 储 在 同一 页 
面 上 ， 并 且 可 以 通过 存储 在 目录 中 的 指针 访问 各 页 面 ( 左 图 )。 目 录 中 的 记录 项 0 包含 着 指向 以 000 开 始 的 
所 有 关键 字 所 在 的 页 面 的 指针 ， 记 录 项 1 包含 着 指向 以 001 开 始 的 所 有 关键 字 所 在 的 页 面 的 指针 ， 记 录 项 2 
包含 着 指向 以 010 开 始 的 所 有 关键 字 所 在 的 页 面 的 指针 ， 以 此 类 推 。 如 果 某 些 页 面 未 满 ， 我 们 可 以 使 多 个 目 
录 指 针 指 向 同一 页 面 ， 来 减少 所 需 的 页 面 个 数 。 在 这 个 例子 中 ( 左 图 ) ，373 与 2 打头 的 关键 字 在 一 个 页 面 
上 ， 那 个 页 面 定义 为 关键 字 的 前 两 位 为 01 的 数据 项 所 在 的 页 面 。 
如 果 我 们 使 目录 长 度 加 倍 并 复制 每 个 指针 ， 就 得 到 一 个 用 搜索 关键 字 的 前 4 位 进行 索引 的 结构 ( 右 图 ) 。 
例如 ， 最 后 的 页 面 定 义 为 关键 字 的 前 3 位 为 111 的 数据 项 在 一 个 页 面 上 。 如 果 搜 索 关 键 字 的 前 4 位 为 1110 或 
1111， 就 可 以 通过 目录 指针 访问 到 这 个 页 面 。 这 个 较 大 的 目录 可 以 容纳 更 长 的 表 。 


明确 地 说 ， 我 们 用 于 可 扩展 散 列 的 数据 结构 比 我 们 在 B 树 中 所 用 的 数据 结构 要 简单 的 多 。 
该 结构 是 由 包括 不 超过 M 个 数据 项 的 页 面 和 一 个 指向 页 面 的 2“ 个 指针 的 目录 组 成 〈 见 程序 
16.5)。 目 录 位 置 x 的 指针 引用 的 页 面 ， 包 含 前 d 位 等 于 x 的 所 有 数据 项 。 在 构造 表 时 ， 使 4 足够 
大 ， 以 保证 每 个 页 面 上 的 数据 项 数 少 于 M。search 操 作 的 实现 很 简单 ,我们 使 用 关键 字 的 前 4d 
位 来 索引 目录 ， 使 我 们 可 以 访问 包含 与 关键 字 匹 配 的 任何 数据 项 的 页 面 ， 然 后 ， 在 页 面 上 对 
此 关键 字 进 行 顺序 搜索 ( 见 程 序 16.6)。 


第 16 便 外 部 授 翰 





“程序 16.5 可 扩展 的 艇 列 定义 和 初始 化 
一 个 可 扩展 的 散 列表 是 一 个 指向 页 面 的 指针 目录 (就 像 B 树 中 的 外 部 节点 )， 这 些 页 面包 
含 不 超过 2M 个 数据 项 。 每 个 页 面 还 包含 本 页 的 一 个 计数 (m) ， 以 及 一 个 指定 关键 字 前 几 位 的 
整数 (k) ， 通 过 这 个 整数 可 以 知道 相等 关键 字 的 数据 项 。 通 常 来 说 ，N 表 示 表 中 的 数据 项 数 ， 
变量 a 表示 我 们 用 来 索引 目录 的 位 数 ，D 是 目录 中 的 记录 数 ， 可 得 ，D = 24 。 表 被 初始 化 为 大 
小 为 1 的 指向 空 页 面 的 目录 。 
typedef struct STnode* link; 
struct STnode { Item b[M]; int m; int k; }; 
static link *dir; 
static int d, D, N; 
link NEW() 
{ link x = malloc(sizeof *x); 
x->m = 0; x->k = 0; 
return x; 
} 
void STinit(int maxN) 
{ 
d=0;N=0;D=1; 
dir = malloc (D* (sizeof *dir)); 
Qir[0] = NEW(); 
} 


程序 16.6 可 扩展 散 列 法 的 搜索 
在 可 扩展 散 列表 中 的 搜索 是 一 一 件 简单 的 事情 ， 只 需 使 用 关键 字 的 前 几 位 索引 到 目录 ， 然 
， 在 与 搜索 关键 字 相 等 的 关键 字 的 数据 项 所 在 页 面 进行 顺序 搜索 。 惟 一 的 要 求 是 目录 中 每 
个 各 果 天 类 各个 页 而 可 以 保证 符号 表 中 包含 以 某 些 特定 位 开始 的 所 有 数据 项 。 
Item search(link h, Key v) 
{ int j; 
for (j = 0; j < h->m; j++) 
if (eq(v, key(h->b[j]))) 
return h->b[j]; 
return NULLitenm; 


} 
Item STsearch(Key v) 
{ return search(dir[bits(v, 0, d)], v); } 


支持 insert 操 作 的 数据 结构 稍微 复杂 一 些 。 但 其 基本 特征 是 搜索 算法 不 经 修改 可 以 直接 使 
用 。 为 了 支持 insert 操 作 ， 我 们 需要 解决 以 下 问题 : 

“如 果 某 页 面 的 数据 项 数 超过 该 页 面 的 容量 ， 访 如何 处 理 ? 

“我 们 该 选择 多 大 的 目录 长 度 才 合适 ? 

例如 ， 在 图 16-10 的 例子 中 ， 不 使 用 d = 2 是 因为 会 造成 页 面 溢出 。 我 们 也 不 使 用 d = 5 是 因 
为 会 有 太 多 的 空 页 面 产生 。 通 常 来 说 ， 我 们 对 支持 insert 操 作 的 符号 表 ADT 感 兴趣 ， 因 而 ， 在 
交替 执行 insert 和 search 操 作 序列 时 ， 结 构 可 以 逐渐 增长 。 考 虑 到 这 一 点 ， 我 们 可 以 精炼 第 一 
个 问题 ， 

。 如果 需 要 往 一 个 满 页 面 中 播 和 一 个 数据 项 ， 如 何 做 呢 ? 
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例如 ， 我 们 不 能 在 图 16-10 中 插入 一 个 以 5 或 7 开始 的 关键 字 的 数据 项 ， 因 为 相应 的 页 面 是 
满 的 。 
定义 16.3 ” 阶 数 为 4 的 可 扩展 散 列 表 是 一 个 含有 2?4 个 页 面 引用 的 目录 ， 页 面 中 含有 的 数据 
项 数 不 超 过 M。 每 个 页 面 上 的 数据 项 关键 字 前 K 位 相同 ,目录 含 有 2 “个 指向 页 面 的 指针 ， 它 
起 始 于 页 面 上 关键 字 的 前 k 位 所 决定 的 位 置 。 

某 些 d 位 模式 在 关键 字 中 不 会 出 现 , 尽管 我 们 有 将 指向 空 页 面 的 指针 组 织 起 来 的 自然 方法 ， 
但 在 定义 16.3 中 ， 我 们 不 规定 目录 中 的 相应 记录 ， 只 简单 讨论 一 下 这 个 问题 。 

随 着 表 的 增长 ， 为 了 维持 这 些 特征 ， 我 们 使 用 两 个 基本 的 操作 : 一 个 页 面 分 裂 操 作 ， 它 
可 以 把 满 的 页 面 中 的 某 些 关键 字 分 布 到 另 一 个 页 面 上 ， 一 个 目录 分 裂 操作 ， 它 可 以 使 目录 的 
长 度 加 信 ， 并 使 4 增 1。 明 确 地 说 ， 当 一 个 页 面 满 时 ， 我 们 把 它 分 裂 为 两 个 页 面 ， 并 根据 关键 
字 最 左边 的 不 同位 来 确定 哪些 要 转移 到 新 页 面 中 去 。 在 分 裂 页 面 的 同时 ， 我 们 要 调整 目录 中 
的 指针 ， 同 时 要 在 需要 时 将 目录 的 长 度 加 倍 。 

与 前 面 一 样 ， 理 解 算法 的 最 好 方法 是 在 把 关键 字 播 人 到 初始 为 空 的 表 中 时 ， 跟 踪 它 的 操 
作 。 算 法 的 每 种 情况 必定 以 简洁 的 形式 在 此 过 程 中 很 早出 现 ， 我 们 很 快 就 会 理解 这 一 算法 的 
基本 原理 。 图 16-11 至 图 16-13 给 出 了 建立 可 扩展 散 列表 的 过 程 ， 关 键 字 是 本 章 中 我 们 一 直 在 用 
的 25 个 八进制 的 关键 字 。 如 在 B 树 中 出 现 的 一 样 ， 多 数 插入 操作 都 是 平凡 的 ， 仅 仅 需 要 在 页 面 
中 加 入 一 个 新 的 关键 字 。 由 于 我 们 从 一 个 页 面 开始 ， 最 后 是 8 个 页 面 ， 我 们 可 以 推断 出 7 次 插 
入 就 会 引起 一 次 页 面 分 裂 ， 另 一 方面 ， 由 于 我 们 从 大 小 为 1 的 生 录 开始 ， 结 束 于 大 小 为 16 的 目 
录 ， 我 们 可 以 推断 出 4 次 插入 操作 就 会 引起 一 次 目录 分 裂 。 





图 16-11 可 扩展 散 列表 的 构造 (第 1 部 分 ) 


注 : 就 像 在 B 树 中 那样 ， 向 一 个 可 扩展 的 散 列 表 中 执行 5 次 插入 ,得 到 单个 页 面 ( 左 图 )。 然 后 ， 在 插入 773 时 ， 
就 把 该 页 面 分 弄 为 两 个 页 面 (一 个 页 面包 含 所 有 以 0 开始 的 关键 字 , 另 一 个 页 面包 含 所 有 以 1 开始 的 关键 字 ) ， 
同时 ， 把 目录 大 小 加 倍 ， 以 存放 指向 每 个 页 面 的 指针 。 我 们 把 742 播 入 底部 页 面 (是 因为 它 包含 以 1 开始 的 
关键 字 ) ， 把 373 插 入 到 顶部 页 面 (是 因为 它 包 侈 以 0 开始 的 关键 字 ) ， 但 需要 分 裂 底部 页 面 以 存放 524。 对 
于 这 次 的 分 裂 ， 我 们 把 关键 字 以 10 开 始 的 所 有 数据 项 放 在 一 个 页 面 上 ， 把 关键 字 以 11 开 冶 的 所 有 数据 项 放 
在 另 一 个 页 面 上 ， 同 时 再 次 把 目录 大 小 加 倍 ， 以 容纳 指向 这 两 个 页 面 的 指针 〈 右 图 )。 此 时 目录 中 包含 着 指 
向 以 0 开始 的 页 面 的 两 个 指针 ， 一 个 指向 以 00 开 始 的 关键 字 所 在 的 页 面 ， 另 一 个 指针 指向 以 01 开 始 的 关键 
字 所 在 页 面 。 


性 质 16.4 由 一 组 关键 字 所 构造 的 可 扩展 散 列表 只 与 那些 关键 字 有 关 ， 而 与 关键 字 的 播 入 
顺序 无 关 。 
考虑 一 下 对 应 这 些 关键 字 的 线索 ( 见 性 质 15.2) ， 它 的 每 个 内 部 节点 都 有 一 个 保存 其 子 树 
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所 含 数据 项 的 个 数 的 标识 。 当 且 仅 当 线索 的 内 部 节点 的 标识 小 于 M 且 它 的 父 节点 的 标识 不 小 
于 M 时 ， 一 个 内 部 节点 就 与 可 扩展 散 列表 中 的 一 个 页 面 对 应 。 节 点 以 下 的 所 有 数据 项 都 在 一 
个 页 面 中 。 如 果 某 个 节点 在 第 上 层 ， 则 它 对 应 着 一 个 按 常 规 方式 的 线索 路 径 所 形成 的 上 位 模式 ， 
并 且 在 可 扩展 散 列表 目录 中 以 k- 位 模式 开始 其 下 标的 的 所 有 记录 项 ， 包 含 着 指向 对 应 页 面 的 
指针 。 目 录 的 大 小 是 由 对 应 于 页 面 的 线索 中 内 部 节点 的 最 深层 次 确定 的 。 因 此 ， 我 们 可 以 把 
一 个 线索 转换 为 一 个 可 扩展 的 散 列表 ， 无 需 关心 数据 项 被 插入 的 次 序 。 这 个 性 质 可 看 作 性 质 
15.2 的 一 个 推论 。 





图 16-12 可 扩展 散 列表 的 构造 (第 2 部 分 ) 


注 : 把 关键 字 766 和 275 揪 入 到 图 16-11 中 最 右边 的 B 树 中 ， 不 需 做 任何 节点 分 裂 ( 左 图 )。 接 着 ， 插入 737， 需 要 
分 弄 底 部 页 面 ， 因 为 指向 底部 页 面 只 有 一 个 链接 ， 这 使 得 目录 分 裂 (中 图 )。 然 后 ， 插 入 574、434、641 和 
207， 最 后 揪 入 001 时 导致 顶部 页 面 分裂 ( 右 图 )。 


程序 16.7 给 出 了 可 扩展 表 的 插入 操作 的 实现 。 第 一 步 ， 像 在 搜索 中 那样 ， 通 过 惟一 的 指向 
目录 的 引用 , 来 访问 可 能 包含 搜索 关键 字 的 页 面 。 然 后, 就 像 在 B 树 中 对 外 部 节点 所 做 的 那样 ， 
插入 新 的 数据 项 ( 见 程序 16.2)。 如 果 持 入 使 节点 中 有 MM 个 数据 项 ， 那 么 ， 像 在 B 树 中 那样 ， 
我 们 调用 一 个 分 裂 函数 ， 但 是 在 这 种 情况 下 ， 分 列国 数 更 复杂 。 每 个 页 面包 含 前 面 几 位 相同 
的 数 K， 表 明 前 几 位 相同 的 关键 字 的 数据 项 在 同一 页 面 上 。 因 为 我 们 从 左边 0 开始 对 数字 编号 ， 
因而 ，k 也 指定 了 我 们 希望 用 来 测试 以 确定 如 何 分 裂 数 据 项 的 位 的 索引 。  - 
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图 16-13 可 扩展 散 列表 的 构造 (第 3 部 分 ) 


注 : 接着 图 16-11 和 图 16-12 中 的 例子 ， 把 5 个 关键 字 526、562、017、107 和 147 插 入 到 图 16-6 中 最 右边 的 B 树 中 。 
在 把 526 ( 左 图 ) 和 107 ( 右 图 ) 播 入 时 ， 引 起 节点 分 型 。 


忆 程序 16.7 可 扩展 散 列 法 的 插入 


”要 向 可 扩展 散 列 表 中 插入 一 个 数据 项 ， 首先 进行 搜索 ， 接着 在 确定 的 页 面 上 插入 数据 项 。 
如 果 揪 入 引起 溢出 ， 则 分 裂 该 页 面 。 一 般 框 架 与 B 树 相同 ， 但 是 我 们 用 于 查找 相应 页 面 和 分 裂 
页 面 的 方法 不 同 。 

分 裂 函 数 创建 一 个 新 页 面 ， 然 后 检查 每 个 数据 项 关键 字 的 第 位 (从 左边 开始 算 ): 如果 该 
位 为 0， 则 数据 项 还 在 原 节点 中 ， 如 果 该 位 为 1!， 则 数据 项 到 新 的 节点 中 。 分 裂 之 后 ， 两 个 节 
点 的 “前 车 于 位 已 知 是 相等 的 ”的 域 被 赋值 为 kt+1。 如 果 该 过 程 不 能 使 每 个 节点 中 至 少 有 一 个 
关键 字 ， 就 再 次 进行 分 裂 ， 直 到 数据 项 分 开 。 最 后 ， 我 们 把 带 有 新 节点 的 指针 插入 到 目录 中 。 

link split(link h) 

{ int j; link t = NEW(); 
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while (h~>m == 0 || h->m == M) 
{ 
h->m = 0; t->m = 0; 
for (j = 0; j < M; j++) 
if (bits(h~->b[j], h->k, 1) == 0) 
h->b[(h->m)++] = hn->b[j]; 
else t->b[(t->m)++] = h->b[j]; 
t->k = ++(h->k); 
} 
insertDIR(t, t->k); 


void insert(link h, Item item) 
{ int i, j; Key v = key(item); 
for (j = 0; j < h->m; j++) 
if (less(v, key(h->b[j]))) break; 
for (i = (h->m)++; i > j; i--) 
h->b[i] = h->b[i~1]; 
h->b[j] = item; 
if (h->m == M) split(h); 
} 
void STinsert(Item item) 
{ insert(dir[bits(key(item), 0, d)], item); } 


在 分 裂 一 个 页 面 时 ， 我 们 首先 创建 一 个 新 页 面 ， 并 将 该 位 是 0 的 所 有 数据 项 保留 在 旧 页 面 
中 ， 而 将 该 位 是 1 的 所 有 数据 项 保存 到 新 页 面 中 ， 然后， 将 这 两 个 页 面 的 计数 域 值 增 1， 即 保 
存 t+1。 这 种 方法 在 应 用 中 会 出 现 所 有 关键 字 的 第 位 都 相同 的 情况 ， 此 时 无 法 分 裂 节 点 。 如 
果 这 样 ， 我 们 就 继续 比较 下 一 位 ， 直 到 可 以 使 每 个 页 面 至 少 含有 一 个 数据 项 。 除 非 对 同一 关 
键 字 我 们 有 M 个 值 ， 否 则 ， 这 一 过 程 最 后 一 定 会 终止 。 我 们 简略 讨论 如 下 。 

在 B 树 中 ， 我 们 在 每 一 页 面 都 留 出 一 个 记录 空间 使 得 分 裂 操作 可 以 在 插入 后 进行 ， 这 样 简 
化 了 程序 代码 。 在 这 里 ， 这 项 技术 对 实际 效果 影响 很 小 ， 我 们 在 分 析 时 对 其 忽略 。 

当 创 建 一 个 新 页 面 时 ， 我 们 要 在 目录 中 插 人 一 个 指向 新 页 面 的 指针 。 程 序 16.8 给 出 了 这 段 
代码 。 最 简单 的 情况 是 在 插入 前 ， 有 两 个 指向 被 分 裂 页 面 的 指针 。 此 时 ， 我 们 只 需 把 第 二 个 
指针 指向 新 页 面 即 可 。 如 果 在 页 面 上 我 们 用 来 区 分 不 同 关 键 字 的 位 数 k 大 于 访问 目录 所 需 的 关 
键 字 位 数 ， 我 们 就 不 得 不 增 大 目录 长 度 以 容纳 更 多 的 记录 。 然 后 ， 还 要 相应 的 更 新 目录 中 的 
指针 。 


、 ”程序 16.5 可 扩展 散 列 法 的 目录 捕 入 | -9 
这 自重 单 代码 是 可 扩展 做 列 过 程 的 核心 给 定 指向 某 个 节点 的 链接 +， 该 节点 携带 与 前 K 位 
匹配 的 数据 项 ， 该 链接 被 插入 到 目录 中 。 对 于 d = k 的 最 简单 的 情况 ， 我 们 只 是 把 t 放 进 d[x] 
中 ， 其 中 x 是 t->b[0] (和 页 面 中 其 他 数据 项 ) 的 前 d 位 的 值 。 如 果 k>d， 我 们 就 不 得 不 加 倍 目 
录 的 大 小 ， 直 到 d=k。 如 果 k<d， 我 们 需要 设置 多 个 指针 ， 第 一 个 for 循 环 计 算 需 要 设置 为 
(2 ) 的 指针 数 ， 第 二 个 for 循 环 设置 指针 。 
void insertDIR(link t, int k) 
{ int i, m, x = bits(t->b[0] , 0, k); 
while (d < k) 
{ link *old = dir; 
d+= 1;D+=D; 
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dir = malloc(D*(sizeof *dir)); 
for (i = 0; i < D; i++) dir[i] = old[i/2]; 
if (d < k) dir(bits(x, 0, d) “~ 1) = NEW(); 
} . 
for (m= 1; k < d; k++) m *= 2; 
for (i = 0; i < m; i++) dir[x*m+i] = 七; 


} 





如 果 多 于 M 个 数据 项 有 重复 关键 字 ， 这 个 表 将 会 溢出 ， 并 且 程 序 16.7 中 的 代码 会 在 寻找 区 
分 关键 字 的 方法 时 进入 无 限 循 环 。 相 关 问 题 是 如 果 关 键 字 中 前 面相 等 的 位 很 多 ， 目 录 可 能 会 
变 得 很 大 。 这 种 情况 非常 类 似 于 MSD 基 数 排序 ， 对 于 有 大 量 重复 关键 字 或 者 关键 字 中 相等 位 
很 多 时 的 文件 ， 需 要 过 多 时 间 的 情况 。 我 们 依靠 散 列 函数 提供 的 随机 化 来 避免 此 类 问题 ( 见 
练习 16.42)。 即 使 使 用 散 列 函数 ， 如 果 出 现 大 量 重复 关键 字 ， 也 需要 非 几 的 技巧 。 这 是 因为 
散 列 函数 对 于 相等 的 关键 字 取 相等 的 散 列 值 。 重 复 关 键 字 可 以 使 目录 暴 长 。 如 果 相 等 的 关键 
字 多 于 一 个 页 面 的 容量 ， 算 法 也 会 完全 崩 沉 。 于 是 ， 我 们 在 使 用 这 段 代 码 之 前 ， 需 要 增加 对 
出 现 这 些 情况 的 测试 ， 以 避免 这 些 情况 的 发 生 ( 见 练习 16.34) 。 

我 们 所 感 兴趣 的 主要 性 能 参数 是 所 使 用 的 页 面 数 (这 和 B 树 中 一 样 ) 以 及 目录 大 小 。 该 算 
法 的 随机 化 是 由 散 列 函数 提供 的 ， 因 而 ， 平均 情况 下 的 性 能 结果 可 以 应 用 到 任 一 N 个 不 同 插入 
操作 的 序列 中 。 

性 质 16.5 对 NN 个 元 素 的 文件 ， 可 扩展 散 列 算法 平均 大 约 需 要 1.44(N/ 朋 个 页 面 ， 这 里 用 是 
每 个 页 面 所 能 容纳 的 数据 项 数 。 目 录 中 记录 数 的 期 望 值 约 为 3.92(VIMWJ(NVA1) 。 

这 个 (相当 深奥 的 ) 结果 扩展 了 我 们 在 前 一 章 中 对 线索 所 作 的 分 析 ( 见 第 四 部 分 参考 文 
献 )。 对 于 页 面 数 ， 其 中 精确 的 常数 是 lg e = Lin 2。 对 于 目录 大 小 ， 其 中 精确 的 常数 是 elg e = 
e/ln 2。 而 且 这 些 值 的 精确 结果 是 在 其 平均 值 附 近 摆动 。 我 们 应 该 不 对 这 种 现象 感到 惊讶 ， 因 
为 目录 大 小 是 2 的 需 这 一 事实 ， 已 经 考虑 在 结果 中 了 。 国 

注意 到 目录 长 度 增 加 的 速度 比 N 增 加 的 线性 速度 要 快 ， 特 别 是 对 M 小 的 情况 更 是 如 此 。 然 
而 ， 对 实际 应 用 中 的 M 和 AN 的 取 值 ，N'“% 非常 接近 于 1， 因 此 ， 在 实际 中 ， 我 们 可 以 期 望 目 录 
的 大 小 为 4(N/M)。 

我 们 考虑 把 目录 组 织 成 单一 指针 数组 。 这 样 可 以 把 目录 放 在 内 存 中 ， 或 者 ， 如 果 它 太 大 ， 
可 以 把 树 根 保存 在 内 存 中 ， 使 用 相同 的 索引 模式 ， 通 过 根 节点 可 以 知道 页 面 的 位 置 。 另 一 种 
方法 是 可 以 增加 一 层 数据 ， 对 第 一 层 的 前 10 位 进行 索引 ， 第 二 层 对 于 其 余 位 进行 索引 ( 见 练 
习 16.36) 。 

如 在 B 树 中 所 作 的 那样 ， 我 们 把 符号 表 的 其 他 操作 留 作 练习 〈 见 练习 16.37 和 练习 16.40 ) 。 
同样 ， 一 个 正常 的 delete 操 作 也 是 一 项 挑战 性 的 任务 ， 但 是 ， 人 允许 页 面 不 满 是 一 种 较 简 单 的 方 
法 ， 在 实际 中 可 能 很 有 效 。 
练习 
>16.27 ”如 果 图 16-10 中 目录 大 小 为 32， 会 有 多 少 空 页 面 ? 

16.28 ”对 M=5， 将 关键 字 562、221、240、771、274、233、401、273 和 201 按 照 顺 序 插入 到 
初始 为 空 的 树 中 ， 画 出 对 应 图 16-11 至 图 16-13 的 插入 过 程 。 
016.29 假设 已 知 一 个 数据 项 的 有 序数 组 。 描 述 一 种 方法 ， 如 何 确定 对 应 这 组 数据 项 的 可 扩展 
散 列表 的 目录 大 小 。 

“16.30 ”编写 一 个 程序 , 根据 数据 项 的 一 个 有 序数 组 构造 可 扩展 散 列表 ,要求 遍历 两 遍 数 据 项 : 
一 遍 确 定 目录 大 小 〈 见 练习 16.30) ， 另 一 遍 为 页 面 分 配 数据 项 ， 并 填充 目录 。 
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016.31 给 出 一 组 关键 字 ， 其 对 应 的 可 扩展 散 列表 的 目录 大 小 为 16， 且 有 8 个 指针 指向 一 个 
页 面 。 ， 

"…16.32 画 出 类 似 图 16-8 的 可 扩展 散 列 表 。 

“16.33 ”编写 一 个 程序 ， 计 算 可 扩展 散 列 表 的 平均 的 外 部 页 面 数 和 目录 大 小 。 访 散 列表 由 向 初 
始 为 空 的 树 中 进行 N 次 随机 插入 操作 而 成 ， 其 中 页 面容 量 为 M。 对 于 M = 10，100，1000 和 N = 
103，10*，105 和 10s， 计 算 空 位 置 所 占 的 百分比 。 
16.34 在 程序 16.7 中 增加 适当 的 检测 措施 ， 来 避免 太 多 相同 的 关键 字 或 前 面 太 多 相同 位 的 关 
键 字 插 入 到 表 中 ， 以 避免 这 些 情况 发 生 。 

。16.35 ”使 用 二 层 目 录 ， 修 改 程序 16.5 至 程序 16.7 中 的 可 扩展 散 列 实现 ， 使 得 指向 每 个 目录 节 
点 的 指针 不 超过 M 人 个。 尤其 注意 判定 在 从 一 层 到 两 层 时 ， 上 月 录 首 次 增长 的 情况 。 

。16.36 ”修改 程序 16.5 至 程序 16.7 中 的 可 扩展 散 列 实现 ， 使 得 数据 结构 中 每 个 页 面 允 许 有 1M 个 
数据 项 。 

516.37 ”实现 可 扩展 散 列 表 的 sort 操 作 。 

216.38 ”实现 可 扩展 散 列表 的 select 操 作 。 

“16.39 ”实现 可 扩展 散 列 表 的 delete 操 作 。 

o016.40 使 用 练习 16.25 中 指示 的 方法 ， 实 现 可 扩展 散 列表 的 delete 操 作 。 

“16.41 开发 一 个 可 扩展 散 列 的 实现 ， 使 它 在 分 裂 目 录 时 ， 分裂 页 面 。 因 而 ， 每 个 目录 指针 指 
向 惟一 的 一 个 页 面 。 进 行 实验 来 比较 你 所 实现 的 性 能 与 标准 实现 的 性 能 。 

516.42 对 于 M = 10、100 和 1000， 且 1<d<20， 进 行 实验 研究 ， 确 定 要 找到 多 于 M 个 有 相同 
前 d 位 的 数 之 前 ， 期 望 产生 的 随机 数 的 个 数 。 

。16.43 ”使 用 表 长 为 2M 的 散 列表 ， 修 改 采 用 链 地 址 法 的 散 列 算法 ( 见 程 序 14.3)， 将 数据 项 保 
存在 长 度 为 2M 的 页 面 中 。 当 一 个 页 面 满 时 ， 把 它 链 接 到 一 个 新 的 空 页 面 ， 因 此 每 个 散 列表 的 
记录 项 指向 一 个 链接 在 一 起 的 页 面 。 对 M = 10，100 和 1000，N = 1 ，10*，10 ;和 10 的 不 同 取 
值 ， 进 行 实验 确定 在 用 N 个 随机 关键 字 所 建立 的 表 中 ， 进行 一 次 搜索 所 需 的 平均 探测 次 数 。 
16.44 使 用 大 小 为 2M 的 页 面 ， 修 改 双重 散 列 算法 ( 见 程序 14.6)， 将 访问 到 满 的 页 面 处 理 为 
“ 神 突 ”。 对 M = 10，100 和 1000，N = 10;，10*，105; 和 10s 的 不 同 取 值 ， 进 行 实验 确定 ， 在 用 N 
个 随机 关键 字 所 建立 的 表 中 ， 进 行 一 次 搜索 所 需 的 平均 探测 次 数 。 初 始 表 长 为 3N/2M。 
o16.45 使 用 支持 initialize、count、search、insert、delete、join、select 和 sort 操 作 的 可 扩展 散 
列 靶 ， 为 带 有 客户 端 数 据 项 句柄 的 一 级 符号 表 的 ADT 开 发 一 个 符号 表 的 实现 〈 见 练习 12.4 和 
练习 12.5) 。 


16.5 综述 


本 章 中 讨论 的 最 重要 的 应 用 是 为 保存 在 外 部 设备 上 例如， 一 个 磁盘 文件 中 ) 的 大 型 数 
据 库 建立 索引 。 尽 管 我 们 所 讨论 的 基本 算法 是 强大 的 ， 开 发 一 个 基于 B 树 或 可 扩展 散 列 法 的 
文件 系统 的 实现 是 一 件 复杂 的 任务 。 首 先 ， 我们 不 能 直接 使 用 本 章 中 C 程 序 ， 必 须 对 它们 进 
行 修改 ， 已 使 它们 能 够 读 取 和 3 引用 磁盘 文件 。 第 二 ， 我 们 必须 确信 算法 的 参数 (如 页 面 大 小 、 
目录 长 度 ) 可 以 针对 我 们 使 用 的 某 种 硬件 特征 进行 调整 。 第 三 ， 我 们 必须 考虑 可 靠 性 问题 ， 
以 及 出 错 检 测 和 纠正 机 制 。 例 如 ， 我 们 要 有 能 力 检 查 某 一 数据 结构 是 否 处 于 一 致 状态 ， 而 且 
要 考虑 如 何 应 付 突然 出 现 的 错误 。 对 这 类 问题 进行 系统 的 考虑 更 为 重要 ， 但 这 超出 了 本 书 的 
范围 。 


另 一 方面 ， 如 果 我 们 的 编程 环境 支持 虚拟 内 存 ， 我 们 便 可 以 直接 使 用 本 章 给 出 的 C 程 序 来 
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实现 很 多 大 型 的 符号 表 应 用 。 粗 略 地 说 ， 每 次 我 们 访问 一 个 页 面 ， 这 样 的 系统 就 会 把 该 页 面 
放 在 一 个 缓存 中 ， 对 那个 页 面 中 数据 的 引用 就 可 以 得 到 高 效 地 处 理 。 如 果 我 们 访问 一 个 不 在 
缓存 中 的 页 面 ， 系 统 必须 从 外 存 中 读 取 该 页 面 ， 因 而 ,缓存 访问 失败 与 探测 次 数 开销 的 度量 
是 等 价 的 。 

对 B 树 而 言 ， 每 次 搜索 和 插入 都 要 访问 根 节点 ， 因 而 根 节点 一 定 在 缓存 中 。 否 则 ， 对 于 足 
够 大 的 M， 典 型 搜索 和 插入 至 多 有 两 次 访问 缓存 失败 。 对 于 较 大 缓存 ， 搜 索 所 需 的 第 一 个 页 
面 就 在 缓存 中 的 几率 很 大 ， 因 而 ， 每 次 搜索 的 平均 开销 很 可 能 比 两 次 探测 小 得 多 。 

对 于 可 扩展 散 列 而 言 ， 整 个 目录 都 在 缓存 中 可 能 性 不 大 ， 因 此 ， 我 们 期 望 目录 访问 和 页 
面 访问 都 有 一 次 访问 失败 〈 这 是 最 坏 情况 ) 。 也 就 是 说 ， 在 大 型 表 中 进行 一 次 搜索 需要 两 次 探 
测 ， 一 次 是 访问 目录 的 相应 部 分 ， 一 次 是 访问 相应 的 页 面 。 

这 些 算法 构成 了 结束 搜索 算法 的 一 个 专题 ， 因 为 要 高 效 地 使 用 它们 ， 我 们 需要 理解 二 又 
搜索 、BST、 平 衡 树 、 散 列 以 及 线索 的 基本 性 质 ， 这 些 就 是 我 们 在 第 12 章 至 第 15 章 中 研究 的 
基本 搜索 算法 。 作 为 一 组 问题 ， 这 些 算法 为 解决 各 种 应 用 的 符号 表 实 现 问题 提供 了 多 种 方案 ， 
它们 通过 实例 证 明了 算法 技术 所 具有 的 强大 能 力 。 
练习 
16.46 ”使 用 ADT 作 为 页 面 引用 ， 修 改 16.3 节 中 的 B 树 实现 (程序 16.1 至 程序 16.3)。 

16.47 ”使 用 ADT 作 为 页 面 引用 ， 修 改 16.4 节 中 的 可 扩展 散 列 实现 (程序 16.5 至 程序 16.8) 。 
16.48 在 一 个 典型 的 缓存 系统 中 ， 对 于 5 次 随机 搜索 ， 估 计 在 B 树 中 每 次 搜索 的 平均 探测 次 
数 。 其 中 7 个 最 近 访 问 的 页 面 保存 在 内 存 中 探测 数 增加 0) 。 假 设 S 比 T 大 得 多 。 

16.49 ”对 于 练习 16.48 中 描述 的 缓存 模型 ， 估 计 在 一 个 可 扩展 的 散 列表 中 进行 一 次 搜索 的 平 
均 探测 次 数 。 

o16.50 ”对 于 大 型 符号 表 中 的 随机 搜索 ， 如 果 你 的 系统 支持 虚拟 内 存 ， 设 计 并 进行 实验 来 比较 
B 树 的 性 能 与 二 又 搜索 的 性 能 。 

16.51 ”实现 支持 大 量 数据 项 的 构造 、 并 接着 执行 大 量 插入 和 删除 最 大 操作 数 的 优先 队列 ADT。 
16.52 开发 一 种 基干 B 树 的 跳 路 表 表 示 ( 见 练习 13.80) 的 外 部 符号 表 ADT 的 实现 。 

“16.53 ”如 果 你 的 系统 支持 虚拟 内 存 ， 进 行 实验 来 确定 M， 使 对 于 在 大 型 符号 表 中 支持 随机 搜 
索 操作 的 B 树 实现 ， 导 致 最 快 的 搜索 时 间 。 

.…16.54 ”修改 16.3 节 (程序 16.1 至 程序 16.3) 中 的 B 树 实现 ， 使 其 能 够 在 表 存放 于 外 存 上 的 情况 
中 进行 操作 。 如 果 你 的 系统 允许 非 顺序 的 访问 文件 ， 则 把 整个 表 放 在 单个 (大 型 ) 文件 中 ， 
. 并 在 文件 内 使 用 位 移 代替 数据 结构 中 的 指针 。 如 果 你 的 系统 允许 你 直接 访问 外 部 设备 上 的 页 
面 ， 则 使 用 页 面 地 址 代替 数据 结构 中 的 指针 。 如 果 你 的 系统 允许 上 述 两 种 情况 ， 选 择 最 适合 
于 实现 一 个 大 型 的 符号 表 的 方法 。 

…16.55 ”修改 16.4 节 (程序 16.5 至 程序 16.8) 中 的 可 扩展 散 列 法 的 实现 ， 使 其 能 够 在 表 存放 于 
外 存 上 的 情况 中 进行 操作 。 解 释 你 向 文件 分 配 目录 和 页 面 所 选择 的 方法 ( 见 练习 16.5)。 
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在 第 15 章 中 讨论 的 线索 是 经 典 的 结构 (尽管 在 文献 中 很 少 会 看 到 C 实 现 ) 关于 TST 的 材 
料 来 自 Bentley 和 Sedgewick 1997 年 的 文章 。 

Bayer 和 McCreight1972 年 的 文章 中 介绍 了 B 树 。 在 第 16 章 中 出 现 的 可 扩展 的 散 列 算法 来 自 
Fagin、Nievergelt、Pippenger 和 Strong 在 1979 年 的 文章 。 关于 可 扩展 散 列 法 的 分 析 结 果 来 自 
Flajolet1983 年 的 文章 。 如 果 希 望 深入 了 解 关于 外 部 搜索 方法 ， 可 以 阅读 这 些 文章 ， 这 些 方法 
的 实际 应 用 也 出 现在 数据 库 系统 中 。 在 Date 的 书 中 有 关于 这 个 主题 的 介绍 。 
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